Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-1-41-50
УДК 004.021, 004.827
Алгоритм распознавания омографов на основе евклидовой метрики
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Израилова Э.С., Астемиров А.В., Бадаева А.С., Султанов З.А., Умархаджиев С.М., Хехаев М.-С.Л., Ясаева М.Л. Алгоритм распознавания омографов на основе евклидовой метрики // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 1. С. 41–50. doi: 10.17586/2226-1494-2024-24-1-41-50
Аннотация
Введение. Проблема разрешения неопределенностей, связанных с омонимией, для чеченского языка стала особенно актуальной после создания систем синтеза речи. Основным недостатком синтезаторов речи на чеченском языке являются ошибки чтения слов-омографов, различающихся долготой/краткостью гласных — долгота таких звуков никак не отображается при письме. Вызывает проблемы воспроизведение дифтонгов, которые обозначаются на письме так же, как близкие им по звучанию монофтонги. Для повышения качества синтезируемой речи на чеченском языке необходима программа автоматического распознавания омографов. Для решения этой проблемы рассмотрена задача устранения неоднозначности смысла слов Word Sense Disambiguation (WSD). Метод. Для чеченского языка выбраны алгоритмические (управляемые) методы, работающие на основе заранее размеченной базы данных. Эти методы являются наиболее распространенными при устранении неоднозначности смысла слов. Реализация таких методов возможна при наличии больших размеченных корпусов, которые недоступны для большинства языков мира, в том числе и для чеченского. Чеченский язык относится к малоресурсным языкам, для которых оптимальным подходом, с точки зрения экономии трудовых и временных ресурсов, является полууправляемый гибридный метод распознавания омографов, основанный на использовании алгоритмических и статистических методов. Основные результаты. Разработан алгоритм распознавания омографов по шести соседним словам в предложении. Алгоритм реализован в виде программы. Предварительная подготовка исходных данных для работы алгоритма включает разметку предложений по значениям омографов, выполняемую «вручную». Результаты работы программы оценены с использованием общепризнанных метрик точности и составили F1 — 39 %, Accuracy — 45 %. Обсуждение. Сравнительный анализ полученных данных c результатами других методов и моделей показал, что точность представленного алгоритма наиболее близка к результатам точности алгоритмов на основе метода Леска. По методу Леска для английского языка получены результаты точности F1 — 41,1% (простой Леск) и 51,1 % (Леск расширенный). Методы, использующие нейросетевые алгоритмы, дают более высокие показатели точности по WSD для большинства языков, однако для их реализации требуется наличие больших корпусов данных, что не всегда доступно для малоресурсных языков, в том числе и для чеченского.
Ключевые слова: графическая омонимия, омографы, WSD, синтез речи, чеченский язык, малоресурсные языки, текстовый корпус
Список литературы
Список литературы
- Израилова Э.С. Процесс создания системы синтеза чеченской речи // Известия Российского государственного педагогического университета им. А.И. Герцена. 2020. № 198. С. 171–177. https://doi.org/10.33910/1992-6464-2020-198-171-177
- Izrailova E.S., Badaeva A.S. Analysis of the speech signal quality of the chechen speech synthesis system // Automatic Documentation and Mathematical Linguistics. 2021. V. 55. N 2. P. 74–78. https://doi.org/10.3103/S0005105521020059
- Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone // Proc. of the 5th Annual International Conference on Systems Documentation. 1986. P. 24–26. https://doi.org/10.1145/318723.318728
- Banerjee S., Pedersen T. An adapted lesk algorithm for word sense disambiguation using WordNet // Lecture Notes in Computer Science. 2002. V. 2276. P. 136–145. https://doi.org/10.1007/3-540-45715-1_11
- Lastra-Diaz J.J., Goikoetxea J., Taieb M.A.H., Garcia-Serrano A., Aouicha M.B., Agirre E. A reproducible survey on word embeddings and ontology-based methods for word similarity: linear combinations outperform the state of the art // Engineering Applications of Artificial Intelligence. 2019. V. 85. P. 645–665. https://doi.org/10.1016/j.engappai.2019.07.010
- Kumar S., Jat S., Saxena K., Talukdar P. Zero-shot word sense disambiguation using sense definition embeddings // Proc. of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 5670–5681. https://doi.org/10.18653/v1/p19-1568
- Scozzafava F., Maru M., Brignone F., Torrisi G., Navigli R. Personalized PageRank with syntagmatic information for multilingual Word Sense Disambiguation // Proc. of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2020. P. 37–46. https://doi.org/10.18653/v1/2020.acl-demos.6
- Escudero G., Marquez L., Rigau G., Salgado J.G. On the portability and tuning of supervised word sense disambiguation systems: Research report. 2000.
- Manning C.D., Clark K., Hewitt J., Khandelwal U., Levy O. Emergent linguistic structure in artificial neural networks trained by self-supervision // Proceedings of the National Academy of Sciences. 2020. V. 117. N 48. P. 30046–30054. https://doi.org/10.1073/pnas.1907367117
- Lin D. Automatic retrieval and clustering of similar words // Proc. of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics. V. 2. 1998. P. 768–774. https://doi.org/10.3115/980691.980696
- Hadiwinoto C., Ng H.T., Gan W.C. Improved Word Sense Disambiguation using pre-trained contextualized word representations // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 5297–5306. https://doi.org/10.18653/v1/D19-1533
- Vial L., Lecouteux B., Schwab D. Sense vocabulary compression through the semantic knowledge of WordNet for neural Word Sense Disambiguation // Proc. of the 10th Global Wordnet Conference. 2019. P. 108–117.
- Scarlini B., Pasini T., Navigli R. SensEmBERT: Context-enhanced sense embeddings for multilingual Word Sense Disambiguation // Proceedings of the AAAI Conference on Artificial Intelligence. 2020. V. 34. N 5. P. 8758–8765. https://doi.org/10.1609/aaai.v34i05.6402
- Scarlini B., Pasini T., Navigli R. With more contexts comes better performance: Contextualized sense embeddings for all-round Word Sense Disambiguation // Proc. of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 3528–3539. https://doi.org/10.18653/v1/2020.emnlp-main.285
- Zhang C.X., Liu R., Gao X.Y., Yu B. Graph convolutional network for word sense disambiguation // Discrete Dynamics in Nature and Society. 2021. V. 2021. P. 2822126. https://doi.org/10.1155/2021/2822126
- Conia S., Navigli R. Framing Word Sense Disambiguation as a multi-label problem for model-agnostic knowledge integration // Proc. of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021. P. 3269–3275. https://doi.org/10.18653/v1/2021.eacl-main.286
- Amrami A., Goldberg Y. Towards better substitution-based word sense induction // arXiv. 2019. arXiv:1905.12598. https://doi.org/10.48550/arXiv.1905.12598
- Arefyev N., Sheludko B., Panchenko A. Combining lexical substitutes in neural word sense induction // Proc. of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019). 2019. P. 62–70. https://doi.org/10.26615/978-954-452-056-4_008
- Vasilescu F., Langlais P., Lapalme G. Evaluating variants of the lesk approach for disambiguating words // Proc. of the Fourth International Conference on Language Resources and Evaluation (LREC’04). 2004.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. P. 4171–4186.
- El-Razzaz M., Fakhr M.W., Maghraby F.A. Arabic Gloss WSD Using BERT // Applied Sciences. 2021. V. 11. N 6. P. 2567. https://doi.org/10.3390/app11062567
- Kilgarriff A., Rosenzweig J. Framework and results for English SENSEVAL // Computers the Humanities. 2000. V. 34. N 1. P. 15–48. https://doi.org/10.1023/A:1002693207386
- Гатауллин Р.Р., Гильмуллин Р.А., Хакимов Б.Э. Разрешение морфологической многозначности в корпусе татарского языка на основе статистико-вероятностной модели Purepos и нейросетевой модели LSTM // VI Международная конференция по компьютерной обработке тюркских языков «TurkLang 2018» (труды конференции). Ташкент: Издательско-полиграфический дом «Navoiy Universiteti», 2018. С. 133–138.
- Haveliwala T.H. Topic-sensitive pagerank: A context-sensitive ranking algorithm for web search // IEEE Transactions on Knowledge and Data Engineering. 2003. V. 15. N 4. P. 784–796. https://doi.org/10.1109/tkde.2003.1208999
- Peters M.E., Neumann M., Iyyer M., Gardner M., Clark C., Lee K., Zettlemoyer L. Deep contextualized word representations // Proc. of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018. P. 2227–2237. https://doi.org/10.18653/v1/N18-1202
- Хомицевич О.Г., Рыбин С.В., Аничкин И.М. Использование лингвистического анализа для нормализации текста и снятия омонимии в системе синтеза русской речи // Известия высших учебных заведений. Приборостроение. 2013. Т. 56. № 2. С. 42–46.
- WordNet: An Electronic Lexical Database // ed. by Ch. Fellbaum. Cambridge, MA: MIT Press, 1998. 423 p.
- Ясаева М.Л. Создание баз данных чеченских текстов для обработки алгоритмов распознавания омографов компьютерными системами // Всероссийская научно-практическая конференция «Актуальные проблемы исследования родного языка и литературы». Грозный, 2022. С. 65–69.
- Карпов А.А., Верходанова В.О. Речевые технологии для малоресурсных языков мира // Вопросы языкознания. 2015. № 2. С. 117–135.
- Израилова Э.С., Астемиров А.В. Статистический контекстный анализ для снятия графической омонимии в текстах на чеченском языке // Материалы Международной научной конференции «Актуальные проблемы развития современной науки» посвященная 30-летию Академии наук Чеченской Республики. Махачкала: Академия наук Чеченской Республики, 2023. С. 478–485.