Ijtimoiy-gumanitar fanlar

O‘ZBEK TILIDAGI SHEVALARNI GAP DARAJASIDA ANIQLASHDA MASHINALI O‘QITISH ALGORITMLARINING QIYOSIY TAHLILI

O‘zbek tili shevalari, dialektlarni tasniflash, tabiiy tilni qayta ishlash, TF-IDF, Naive Bayes, BERT, mBERT, ma’lumotlar yetishmasligi.

Mualliflar

  • Shahnoza POZILOVA Toshkent axborot texnologiyalari universiteti professori, DSc, Uzbekistan
  • Madina RAXIMOVA Toshkent axborot texnologiyalari universiteti magistranti, Uzbekistan

Ushbu tadqiqotda o‘zbek tili shevalarini avtomatik tasniflash vazifasi ko‘rib chiqiladi. Tabiiy tilni qayta ishlash (NLP) sohasida hozirda o‘zbek tili uchun resurslar kundan-kunga rivojlanib bormoqda va bu o‘z navbatida dialektologik korpuslarning yetishmasligi kabi muammolarni yuzaga keltiradi. Mazkur ishda kichik hajmdagi, turli shevalardan iborat ma’lumotlar to‘plami “Bag-of-Words” usuli bo‘lgan TF-IDF + Naive Bayes va bert-base-multilingual-cased modeli asosida tekshirildi. Tadqiqotning asosiy xulosasi, o‘zbek dialektologiyasida yuqori aniqlikdagi model qurilishidagi asosiy muammo bu faqatgina algoritm emas, balki yuqori sifatli, keng qamrovli annotatsiya qilingan korpusning yo‘qligidir.