Алгоритм распознавания омографов на основе евклидовой метрики

Израилова Элиса Салаудиновна, Астемиров Арсланбек Виситович, Бадаева Айшат Салауддиновна , Султанов Зелимхан Аюбович , Умархаджиев Салаудин Мусаевич, Хехаев Мохмад-Салех Лейчевич, Ясаева Мадина Лечаевна

doi:10.17586/2226-1494-2024-24-1-41-50

2024 , ТОМ 24, НОМЕР 1 ( январь-февраль )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2024-24-1-41-50

УДК 004.021, 004.827

Алгоритм распознавания омографов на основе евклидовой метрики

Израилова Э.С., Астемиров А.В., Бадаева А.С., Султанов З.А., Умархаджиев С.М., Хехаев М.Л., Ясаева М.Л.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Израилова Э.С., Астемиров А.В., Бадаева А.С., Султанов З.А., Умархаджиев С.М., Хехаев М.-С.Л., Ясаева М.Л. Алгоритм распознавания омографов на основе евклидовой метрики // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 1. С. 41–50. doi: 10.17586/2226-1494-2024-24-1-41-50

Аннотация

Введение. Проблема разрешения неопределенностей, связанных с омонимией, для чеченского языка стала особенно актуальной после создания систем синтеза речи. Основным недостатком синтезаторов речи на чеченском языке являются ошибки чтения слов-омографов, различающихся долготой/краткостью гласных — долгота таких звуков никак не отображается при письме. Вызывает проблемы воспроизведение дифтонгов, которые обозначаются на письме так же, как близкие им по звучанию монофтонги. Для повышения качества синтезируемой речи на чеченском языке необходима программа автоматического распознавания омографов. Для решения этой проблемы рассмотрена задача устранения неоднозначности смысла слов Word Sense Disambiguation (WSD). Метод. Для чеченского языка выбраны алгоритмические (управляемые) методы, работающие на основе заранее размеченной базы данных. Эти методы являются наиболее распространенными при устранении неоднозначности смысла слов. Реализация таких методов возможна при наличии больших размеченных корпусов, которые недоступны для большинства языков мира, в том числе и для чеченского. Чеченский язык относится к малоресурсным языкам, для которых оптимальным подходом, с точки зрения экономии трудовых и временных ресурсов, является полууправляемый гибридный метод распознавания омографов, основанный на использовании алгоритмических и статистических методов. Основные результаты. Разработан алгоритм распознавания омографов по шести соседним словам в предложении. Алгоритм реализован в виде программы. Предварительная подготовка исходных данных для работы алгоритма включает разметку предложений по значениям омографов, выполняемую «вручную». Результаты работы программы оценены с использованием общепризнанных метрик точности и составили F1 — 39 %, Accuracy — 45 %. Обсуждение. Сравнительный анализ полученных данных c результатами других методов и моделей показал, что точность представленного алгоритма наиболее близка к результатам точности алгоритмов на основе метода Леска. По методу Леска для английского языка получены результаты точности F1 — 41,1% (простой Леск) и 51,1 % (Леск расширенный). Методы, использующие нейросетевые алгоритмы, дают более высокие показатели точности по WSD для большинства языков, однако для их реализации требуется наличие больших корпусов данных, что не всегда доступно для малоресурсных языков, в том числе и для чеченского.

Ключевые слова: графическая омонимия, омографы, WSD, синтез речи, чеченский язык, малоресурсные языки, текстовый корпус

Список литературы

Израилова Э.С. Процесс создания системы синтеза чеченской речи // Известия Российского государственного педагогического университета им. А.И. Герцена. 2020. № 198. С. 171–177. https://doi.org/10.33910/1992-6464-2020-198-171-177
Izrailova E.S., Badaeva A.S. Analysis of the speech signal quality of the chechen speech synthesis system // Automatic Documentation and Mathematical Linguistics. 2021. V. 55. N 2. P. 74–78. https://doi.org/10.3103/S0005105521020059
Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone // Proc. of the 5th Annual International Conference on Systems Documentation. 1986. P. 24–26. https://doi.org/10.1145/318723.318728
Banerjee S., Pedersen T. An adapted lesk algorithm for word sense disambiguation using WordNet // Lecture Notes in Computer Science. 2002. V. 2276. P. 136–145. https://doi.org/10.1007/3-540-45715-1_11
Lastra-Diaz J.J., Goikoetxea J., Taieb M.A.H., Garcia-Serrano A., Aouicha M.B., Agirre E. A reproducible survey on word embeddings and ontology-based methods for word similarity: linear combinations outperform the state of the art // Engineering Applications of Artificial Intelligence. 2019. V. 85. P. 645–665. https://doi.org/10.1016/j.engappai.2019.07.010
Kumar S., Jat S., Saxena K., Talukdar P. Zero-shot word sense disambiguation using sense definition embeddings // Proc. of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 5670–5681. https://doi.org/10.18653/v1/p19-1568
Scozzafava F., Maru M., Brignone F., Torrisi G., Navigli R. Personalized PageRank with syntagmatic information for multilingual Word Sense Disambiguation // Proc. of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020. P. 37–46. https://doi.org/10.18653/v1/2020.acl-demos.6
Escudero G., Marquez L., Rigau G., Salgado J.G. On the portability and tuning of supervised word sense disambiguation systems: Research report. 2000.
Manning C.D., Clark K., Hewitt J., Khandelwal U., Levy O. Emergent linguistic structure in artificial neural networks trained by self-supervision // Proceedings of the National Academy of Sciences. 2020. V. 117. N 48. P. 30046–30054. https://doi.org/10.1073/pnas.1907367117
Lin D. Automatic retrieval and clustering of similar words // Proc. of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. V. 2. 1998. P. 768–774. https://doi.org/10.3115/980691.980696
Hadiwinoto C., Ng H.T., Gan W.C. Improved Word Sense Disambiguation using pre-trained contextualized word representations // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 5297–5306. https://doi.org/10.18653/v1/D19-1533
Vial L., Lecouteux B., Schwab D. Sense vocabulary compression through the semantic knowledge of WordNet for neural Word Sense Disambiguation // Proc. of the 10th Global Wordnet Conference. 2019. P. 108–117.
Scarlini B., Pasini T., Navigli R. SensEmBERT: Context-enhanced sense embeddings for multilingual Word Sense Disambiguation // Proceedings of the AAAI Conference on Artificial Intelligence. 2020. V. 34. N 5. P. 8758–8765. https://doi.org/10.1609/aaai.v34i05.6402
Scarlini B., Pasini T., Navigli R. With more contexts comes better performance: Contextualized sense embeddings for all-round Word Sense Disambiguation // Proc. of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 3528–3539. https://doi.org/10.18653/v1/2020.emnlp-main.285
Zhang C.X., Liu R., Gao X.Y., Yu B. Graph convolutional network for word sense disambiguation // Discrete Dynamics in Nature and Society. 2021. V. 2021. P. 2822126. https://doi.org/10.1155/2021/2822126
Conia S., Navigli R. Framing Word Sense Disambiguation as a multi-label problem for model-agnostic knowledge integration // Proc. of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021. P. 3269–3275. https://doi.org/10.18653/v1/2021.eacl-main.286
Amrami A., Goldberg Y. Towards better substitution-based word sense induction // arXiv. 2019. arXiv:1905.12598. https://doi.org/10.48550/arXiv.1905.12598
Arefyev N., Sheludko B., Panchenko A. Combining lexical substitutes in neural word sense induction // Proc. of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). 2019. P. 62–70. https://doi.org/10.26615/978-954-452-056-4_008
Vasilescu F., Langlais P., Lapalme G. Evaluating variants of the lesk approach for disambiguating words // Proc. of the Fourth International Conference on Language Resources and Evaluation (LREC’04). 2004.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P. 4171–4186.
El-Razzaz M., Fakhr M.W., Maghraby F.A. Arabic Gloss WSD Using BERT // Applied Sciences. 2021. V. 11. N 6. P. 2567. https://doi.org/10.3390/app11062567
Kilgarriff A., Rosenzweig J. Framework and results for English SENSEVAL // Computers the Humanities. 2000. V. 34. N 1. P. 15–48. https://doi.org/10.1023/A:1002693207386
Гатауллин Р.Р., Гильмуллин Р.А., Хакимов Б.Э. Разрешение морфологической многозначности в корпусе татарского языка на основе статистико-вероятностной модели Purepos и нейросетевой модели LSTM // VI Международная конференция по компьютерной обработке тюркских языков «TurkLang 2018» (труды конференции). Ташкент: Издательско-полиграфический дом «Navoiy Universiteti», 2018. С. 133–138.
Haveliwala T.H. Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search // IEEE Transactions on Knowledge and Data Engineering. 2003. V. 15. N 4. P. 784–796. https://doi.org/10.1109/tkde.2003.1208999
Peters M.E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep contextualized word representations // Proc. of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. P. 2227–2237. https://doi.org/10.18653/v1/N18-1202
Хомицевич О.Г., Рыбин С.В., Аничкин И.М. Использование лингвистического анализа для нормализации текста и снятия омонимии в системе синтеза русской речи // Известия высших учебных заведений. Приборостроение. 2013. Т. 56. № 2. С. 42–46.
WordNet: An Electronic Lexical Database // ed. by Ch. Fellbaum. Cambridge, MA: MIT Press, 1998. 423 p.
Ясаева М.Л. Создание баз данных чеченских текстов для обработки алгоритмов распознавания омографов компьютерными системами // Всероссийская научно-практическая конференция «Актуальные проблемы исследования родного языка и литературы». Грозный, 2022. С. 65–69.
Карпов А.А., Верходанова В.О. Речевые технологии для малоресурсных языков мира // Вопросы языкознания. 2015. № 2. С. 117–135.
Израилова Э.С., Астемиров А.В. Статистический контекстный анализ для снятия графической омонимии в текстах на чеченском языке // Материалы Международной научной конференции «Актуальные проблемы развития современной науки» посвященная 30-летию Академии наук Чеченской Республики. Махачкала: Академия наук Чеченской Республики, 2023. С. 478–485.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License