СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ УЗБЕКСКИХ ДИАЛЕКТОВ НА УРОВНЕ ПРЕДЛОЖЕНИ
Данное исследование посвящено задаче автоматической классификации диалектов узбекского языка. Несмотря на увеличение ресурсов в области обработки естественного языка (NLP), нехватка диалектологических корпусов остается одной из основных проблем. В настоящей работе на небольшом, собранном автором наборе данных, включающем диалекты, были протестированы два фундаментальных подхода: модели TF-IDF + Naive Bayes и BERT (bert-base-multilingual-cased). Главный вывод исследования заключается в том, что основным препятствием для создания высокоточных моделей в узбекской диалектологии является не столько выбор верного алгоритма, сколько отсутствие качественного, всесторонне аннотированного корпуса.
1. M. K., S. A., T. O., & K. M. (2021). UzBERT: A New Uzbek Language Model and Its Application in Sentiment Analysis.
2. Mansurov B.., A. Mansurov. (2021). UzBERT: pretraining a BERT model for Uzbek. Copper City Labs
3. Pedregosa, F. et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. Article in Journal of Machine Learning Research
4. Wolf, T. et al. (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Hugging Face, Brooklyn, USA
5. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics.
6. Reshetov V.V., Sh.Shoabdurahmonov muallifligida yaratilgan “O‘zbek dialektologiyasi” darsligining 60 yilligi munosabati bilan tashkil etilgan. (2022) “O‘zbek shevalari tadqiqotlari: amaliyot, metodologiya va yangicha yondashuv” mavzusidagi II Respublika ilmiy-nazariy konferensiyasi materiallari. Toshkent «Donishmand ziyosi»
7. Abdulla Qahhor. (1936). Anor, O‘g‘ri, Bemor, Daxshat hikoyalari. (adabiy sheva uchun)
8. Nazar Eshonqul. (2004).Maymun yetaklagan odam hikoyasi. (adabiy sheva uchun)
9. Ijtimoiy tarmoqlar: Instagram, Telegram (mahalliy aholining shevasi)
Copyright (c) 2025 «ВЕСТНИК НУУз»

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.






.jpg)

2.png)





