Ijtimoiy-gumanitar fanlar

СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ УЗБЕКСКИХ ДИАЛЕКТОВ НА УРОВНЕ ПРЕДЛОЖЕНИ

O‘zbek tili shevalari, dialektlarni tasniflash, tabiiy tilni qayta ishlash, TF-IDF, Naive Bayes, BERT, mBERT, ma’lumotlar yetishmasligi.

Авторы

  • Shahnoza POZILOVA Toshkent axborot texnologiyalari universiteti professori, DSc, Узбекистан
  • Madina RAXIMOVA Toshkent axborot texnologiyalari universiteti magistranti, Узбекистан

Данное исследование посвящено задаче автоматической классификации диалектов узбекского языка. Несмотря на увеличение ресурсов в области обработки естественного языка (NLP), нехватка диалектологических корпусов остается одной из основных проблем. В настоящей работе на небольшом, собранном автором наборе данных, включающем диалекты, были протестированы два фундаментальных подхода: модели TF-IDF + Naive Bayes и BERT (bert-base-multilingual-cased). Главный вывод исследования заключается в том, что основным препятствием для создания высокоточных моделей в узбекской диалектологии является не столько выбор верного алгоритма, сколько отсутствие качественного, всесторонне аннотированного корпуса.