Ijtimoiy-gumanitar fanlar

N-GRAM YORDAMIDA TURG‘UN LISONIY BIRLIKLARNI ANIQLASH BOSQICHLARI

фразеологические единицы, идиомы, корпусная лингвистика, коллокации, корпус узбекского языка, автоматическое выявление.

Авторы

  • Umidjon YODGOROV, Toshkent davlat o‘zbek tili va adabiyoti universiteti o‘qituvchisi, Узбекистан

В статье рассмотрены научно-методические основы автоматического выявления устойчивых языковых единиц узбекского языка на материале национального текстового корпуса. В исследовании 2-5-словные N-граммы были отобраны на основе статистических показателей и классифицированы как фразеологические либо свободные сочетания с использованием лингвистических критериев и контекстуальных моделей. Предложенный подход продемонстрировал точность на уровне 90% и подтвердил, что значительная часть высоко вязаных сочетаний обладает фразеологической природой. Полученные результаты способствуют созданию автоматизированных фразеологических словарей и повышению эффективности обработки многословных выражений в системах корпусной лингвистики и NLP.