Меню                
                
            Публикации                
            2025
                    
                                        
                        2024
                    
                                        
                        2023
                    
                                        
                        2022
                    
                                        
                        2021
                    
                                        
                        2020
                    
                                        
                        2019
                    
                                        
                        2018
                    
                                        
                        2017
                    
                                        
                        2016
                    
                                        
                        2015
                    
                                        
                        2014
                    
                                        
                        2013
                    
                                        
                        2012
                    
                                        
                        2011
                    
                                        
                        2010
                    
                                        
                        2009
                    
                                        
                        2008
                    
                                        
                        2007
                    
                                        
                        2006
                    
                                        
                        2005
                    
                                        
                        2004
                    
                                        
                        2003
                    
                                        
                        2002
                    
                                        
                        2001
                    
                                Главный редактор                
             
                    НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры                
            doi: 10.17586/2226-1494-2020-20-4-545-551
УДК 004.912
	ЗАДАЧА НОРМАЛИЗАЦИЙ СЛОВ КАЗАХСКОГО ЯЗЫКА
	 
Читать статью полностью
 
			
	
	        Язык статьи -  русский
		
Ссылка для цитирования:
		        
Аннотация
 
		
Ссылка для цитирования:
	Рахимова  Д.Р.,  Турганбаева  А.О.   Задача  нормализации  слов  казахского  языка // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20.  № 4. С. 545–551. doi: 10.17586/2226-1494-2020-20-4-545-551
Аннотация
	Предмет исследования. Рассмотрены модели и существующие алгоритмы нормализации слов естественных языков. Описаны алгоритмы автоматического выделения основ для ряда естественных языков и возможные пути синтеза нормальной формы слова для казахского языка. Цель. Создание полной классификации системы окончаний для казахского языка. Разработка алгоритма нормализации слов на основе предложенного подхода классификации окончаний и суффиксов. Методология. Проведен анализ словообразования с помощью окончаний для всех частей речи казахского языка, на основе выполненной работы представлена классификация окончаний и суффиксов. Рассмотрены возможные варианты размещений типов окончаний и суффиксов. Общее количество возможных суффиксов составляет 26 526 единиц, окончаний – 3 565 единиц. Все приведенные типы являются лексически и семантически допустимыми, но некоторые из них не применяются. В базу аффиксов добавлены только те, которые наиболее часто применяются. С помощью множеств представлено, в каком порядке к основе добавляется аффиксы. Это нужно для того, чтобы правильно выделить основу. В работе не рассматриваются словообразующие суффиксы, так как они меняют основу слова и контекст значения. В основном к существительным добавляются словообразующие суффиксы. Основные результаты. Разработана полная система классификации окончаний и суффиксов казахского языка. Построены детерминированные конечные автоматы для различных частей речи с использованием всевозможных вариантов добавления суффиксов и окончаний с учетом морфологических и лексических свойств грамматики казахского языка. Разработан алгоритм стеминга с использованием разработанной системы классификации окончаний казахского языка. Реализована система нормализации, доказывающая работоспособность разработанного алгоритма без словаря. Алгоритм протестирован на корпусе казахского языка. В заданном корпусе изначально были убраны знаки пунктуации и стоп-слова. Практическая значимость. Результаты работы могут найти применение при анализе текста, нормализации (лемматизации) текста, а также в информационно-поисковых системах, в машинном переводе казахского языка и других прикладных задачах.
	        Ключевые слова: обработка естественного языка, казахский язык, система окончаний, нормализация, алгоритм стеминга		        
Благодарности. Исследование выполнено при поддержке Министерства образования и науки Республики Казахстан в рамках научного проекта АР 05132950.
Список литературы
    
        Благодарности. Исследование выполнено при поддержке Министерства образования и науки Республики Казахстан в рамках научного проекта АР 05132950.
Список литературы
	1. Altenbek G., Wang X.-L. Kazakh segmentation system of inflectional affixes // Proc. of the CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP 2010). Beijing, China. 2010. P. 183–190.
	2. Kessikbayeva G., Cicekli I. Rule based morphological analyzer of Kazakh language // Proc. of the 2014 Joint Meeting of SIGMORPHON and SIGFSM. Association for Computational Linguistics. Baltimore, Maryland, USA. 2014. P. 46–54. doi: 10.3115/v1/W14-2806
	3. Bekmanova G., Sharipbay A., Altenbek G., Adali E., Zhetkenbay L., Kamanur U., Zulkhazhav A. A uniform morphological analyzer for the Kazakh and Turkish languages [Электронный ресурс]. URL: http://ceur-ws.org/Vol-1975/paper3.pdf (дата обращения: 10.02.2020).
	4. Федотов А.М., Тусупов Д.А., Самбетбаева М.А., Еримбетова А.С., Бакиева А.М., Идрисова А.И. Модель определения нормальной формы слова для казахского языка // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13. № 1. С. 107–116.
	5. Тукеев У.А., Турганбаева А. Лексикон – фри стемминг для казахского языка // Материалы международной научной конференции «Информатика и прикладная математика» («Computer science and Applied Mathematics») посвященной 25-летию Независимости Республики Казахстан и 25-летию Институт информационных и вычислительных технологий. Алматы, 2016. С. 84–88.
	6. Willett P. The Porter stemming algorithm: then and now // Program. 2006. V. 40. N 3. P. 219–223. doi: 10.1108/00330330610681295
	7. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine [Электронный ресурс]. URL: https://www.semanticscholar.org/paper/A-Fast-Morphological-Algorithm-with-Unknown-Word-by-Segalovich/983b7014df3b7d4e82e32ba4f45f71f3879f8c96 (дата обращения: 01.03.2020).
	8. Iborodikhin A. Basic snowball stemming algorith for kazakh language [Электронный ресурс]. URL: https://github.com/iborodikhin/stemmer-kaz/ (дата обращения: 27.03.2020).
	9. Rakhimova D., Zhumanov Zh. Complex technology of machine translation resources extension for the Kazakh language // Studies in Computational Intelligence. 2017. V. 710. Р. 297–307. doi: 10.1007/978-3-319-56660-3_26
	10. Рахимова Д.Р. Разработка информационно-аналитической поисковой системы данных на казахском языке: отчет о НИР (промежуточный). № ГР 0118РК00127. Алматы, 2018. 84 с.
	11. Shormakova A., Zhumanov Zh., Rakhimova D. Post-editing of words in Kazakh sentences for information retrieval // Journal of Theoretical and Applied Information Technology. 2019. V. 97. N 6. P. 1896–1908.
	12. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы). М., 2003. 140 c.
	13. Kutuzov A., Andreev I. Texts in, Meaning out: neural language models in semantic similarity tasks for Russian // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» (2015) = Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference «Dialogue» (2015). 2015. Т. 2. № 14. С. 133–144.
	14. Kalimoldayev M.N., Koibagarov K.Ch., Pak A.A., Zharmagambetov A.S. The application of the connectionist method of semantic similarity for kazakh language // Proc. 12th International Conference on Electronics Computer and Computation (ICECCO 2015). 2015. P. 7416906. doi: 10.1109/ICECCO.2015.7416906
	15. Drakshayani B., Prasad E.V. Semantic based model for text document clustering with idioms // International Journal of Data Engineering (IJDE). 2013. V. 4. N 1. Р. 1–13.
	16. Verma R., Vuppuluri V. A New approach for idiom identification using meanings and the web // Proc. 10th International Conference on Recent Advances in Natural Language Processing (RANLP 2015). Hissar, Bulgaria. 2015. P. 681–687.
		     
        
 
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                         
                        

