doi: 10.17586/2226-1494-2020-20-4-545-551


УДК 004.912

ЗАДАЧА НОРМАЛИЗАЦИЙ СЛОВ КАЗАХСКОГО ЯЗЫКА
 

Рахимова Д.Р., Турганбаева А.О.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Рахимова  Д.Р.,  Турганбаева  А.О.   Задача  нормализации  слов  казахского  языка // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20.  № 4. С. 545–551. doi: 10.17586/2226-1494-2020-20-4-545-551


Аннотация
Предмет исследования. Рассмотрены модели и существующие алгоритмы нормализации слов естественных языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути синтеза нормальной формы слова для казахского языка. Цель. Создание полной классификации системы окончаний для казахского языка. Разработка алгоритма нормализации слов на основе предложенного подхода классификации окончаний и суффиксов. Методология. Проведен анализ словообразования с помощью окончаний для всех частей речи казахского языка, на основе выполненной работы представлена классификация окончаний и суффиксов. Рассмотрены возможные варианты размещений типов окончаний и суффиксов. Общее количество возможных суффиксов составляет 26 526 единиц, окончаний – 3 565 единиц. Все приведенные типы являются лексически и семантически допустимыми, но некоторые из них не применяются. В базу аффиксов добавлены только те, которые наиболее часто применяются. С помощью множеств представлено, в каком порядке к основе добавляется аффиксы. Это нужно для того, чтобы правильно выделить основу. В работе не рассматриваются словообразующие суффиксы, так как они меняют основу слова и контекст значения. В основном к существительным добавляются словообразующие суффиксы. Основные результаты. Разработана полная система классификации окончаний и суффиксов казахского языка. Построены детерминированные конечные автоматы для различных частей речи с использованием всевозможных вариантов добавления суффиксов и окончаний с учетом морфологических и лексических свойств грамматики казахского языка. Разработан алгоритм стеминга с использованием разработанной системы классификации окончаний казахского языка. Реализована система нормализации, доказывающая работоспособность разработанного алгоритма без словаря. Алгоритм протестирован на корпусе казахского языка. В заданном корпусе изначально были убраны знаки пунктуации и стоп-слова. Практическая значимость. Результаты работы могут найти применение при анализе текста, нормализации (лемматизации) текста, а также в информационно-поисковых системах, в машинном переводе казахского языка и других прикладных задачах.

Ключевые слова: обработка естественного языка, казахский язык, система окончаний, нормализация, алгоритм стеминга

Благодарности. Исследование выполнено при поддержке Министерства образования и науки Республики Казахстан в рамках научного проекта АР 05132950.

Список литературы
1. Altenbek G., Wang X.-L. Kazakh segmentation system of inflectional affixes // Proc. of the CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP 2010). Beijing, China. 2010. P. 183–190.
2. Kessikbayeva G., Cicekli I. Rule based morphological analyzer of Kazakh language // Proc. of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Association for Computational Linguistics. Baltimore, Maryland, USA. 2014. P. 46–54. doi: 10.3115/v1/W14-2806
3. Bekmanova G., Sharipbay A., Altenbek G., Adali E., Zhetkenbay L., Kamanur U., Zulkhazhav A. A uniform morphological analyzer for the Kazakh and Turkish languages [Электронный ресурс]. URL: http://ceur-ws.org/Vol-1975/paper3.pdf (дата обращения: 10.02.2020).
4. Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И. Модель определения нормальной формы слова для казахского языка // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13. № 1. С. 107–116.
5. Тукеев У.А., Турганбаева А. Лексикон – фри стемминг для казахского языка // Материалы международной научной конференции «Информатика и прикладная математика» («Computer science and Applied Mathematics») посвященной 25-летию Независимости Республики Казахстан и 25-летию Институт информационных и вычислительных технологий. Алматы, 2016. С. 84–88.
6. Willett P. The Porter stemming algorithm: then and now // Program. 2006. V. 40. N 3. P. 219–223. doi: 10.1108/00330330610681295
7. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine [Электронный ресурс]. URL: https://www.semanticscholar.org/paper/A-Fast-Morphological-Algorithm-with-Unknown-Word-by-Segalovich/983b7014df3b7d4e82e32ba4f45f71f3879f8c96 (дата обращения: 01.03.2020).
8. Iborodikhin A. Basic snowball stemming algorith for kazakh language [Электронный ресурс]. URL: https://github.com/iborodikhin/stemmer-kaz/ (дата обращения: 27.03.2020).
9. Rakhimova D., Zhumanov Zh. Complex technology of machine translation resources extension for the Kazakh language // Studies in Computational Intelligence. 2017. V. 710. Р. 297–307. doi: 10.1007/978-3-319-56660-3_26
10. Рахимова Д.Р. Разработка информационно-аналитической поисковой системы данных на казахском языке: отчет о НИР (промежуточный). № ГР 0118РК00127. Алматы, 2018. 84 с.
11. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. 2019. V. 97. N 6. P. 1896–1908.
12. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы). М., 2003. 140 c.
13. Kutuzov A., Andreev I. Texts in, Meaning out: neural language models in semantic similarity tasks for Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» (2015) = Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference «Dialogue» (2015). 2015. Т. 2. № 14. С. 133–144.
14. Kalimoldayev M.N., Koibagarov K.Ch., Pak A.A., Zharmagambetov A.S. The application of the connectionist method of semantic similarity for kazakh language // Proc. 12th International Conference on Electronics Computer and Computation (ICECCO 2015). 2015. P. 7416906. doi: 10.1109/ICECCO.2015.7416906
15. Drakshayani B., Prasad E.V. Semantic based model for text document clustering with idioms // International Journal of Data Engineering (IJDE). 2013. V. 4. N 1. Р. 1–13.
16. Verma R., Vuppuluri V. A New approach for idiom identification using meanings and the web // Proc. 10th International Conference on Recent Advances in Natural Language Processing (RANLP 2015). Hissar, Bulgaria. 2015. P. 681–687.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика