N-GRAM YORDAMIDA TURG‘UN LISONIY BIRLIKLARNI ANIQLASH BOSQICHLARI
В статье рассмотрены научно-методические основы автоматического выявления устойчивых языковых единиц узбекского языка на материале национального текстового корпуса. В исследовании 2-5-словные N-граммы были отобраны на основе статистических показателей и классифицированы как фразеологические либо свободные сочетания с использованием лингвистических критериев и контекстуальных моделей. Предложенный подход продемонстрировал точность на уровне 90% и подтвердил, что значительная часть высоко вязаных сочетаний обладает фразеологической природой. Полученные результаты способствуют созданию автоматизированных фразеологических словарей и повышению эффективности обработки многословных выражений в системах корпусной лингвистики и NLP.
1. Sag, I. A., Baldwin, T., Bond, F., Copestake, A., & Flickinger, D. Multiword expressions: A pain in the neck for NLP. In Computational Linguistics and Intelligent Text Processing: Third International Conference, 2002, Mexico, February 17–23.
2. https://blog.devgenius.io/ngram-collocation-analysis-for-hate-speech-detection-9de4330e410c
3. Mandravickaite, J., Krilavicius, T., & Man, K. L. A Combined approach for automatic identification of multi-word expressions for Latvian and Lithuanian. IAENG International Journal of Computer Science, 2017, 44(4), 598-606.
4. Manning, C., & Schutze, H. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
5. Jurafsky, D., & Martin, J. Speech and Language Processing. Prentice Hall, 2023.
6. Ramshaw, L., & Marcus, M. “Text Chunking Using Transformation-Based Learning.” ACL Workshop, 1995.
7. Mikolov, T. et al. “Efficient Estimation of Word Representations in Vector Space.” ICLR, 2013.
8. Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” ACL, 2019.
9. Rahmatullayev, Sh. O‘zbek tilining frazeologik lug‘ati. Toshkent: O‘qituvchi, 2010.
10. Uznatcorpora.uz – O‘zbek tilining milliy matn korpusi.
11. Kilgarriff, A. “Corpora and Collocations.” International Journal of Corpus Linguistics, 2006.
12. Baldwin, T., & Kim, S. N. “Multiword Expressions.” In: Handbook of NLP, 2010.
Copyright (c) 2025 «ВЕСТНИК НУУз»

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-ShareAlike» («Атрибуция — Некоммерческое использование — На тех же условиях») 4.0 Всемирная.






.jpg)

2.png)





