ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ 
НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Письмак Алексей Евгеньевич, Харитонова Анастасия Евгеньевна, Цопа Евгений Алексеевич, Клименков Сергей Викторович

doi:10.17586/2226-1494-2016-16-2-324-330

2016 , ТОМ 16, НОМЕР 2 ( март-апрель )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2016-16-2-324-330

УДК 004.912

ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Письмак А.Е., Харитонова А.Е., Цопа Е.А., Клименков С.В.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования: Письмак А.Е., Харитонова А.Е., Цопа Е.А., Клименков С.В. Оценка семантической близости предложений на естественном языке методами математической статистики // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 2. С. 324–330. doi:10.17586/2226-1494-2016-16-2-324-330

Аннотация

Предмет исследования.Рассмотрены особенности структурной организации статей открытого словаря Wiktionary в контексте его использования в качестве источника для построения семантической сети. Изучены рекомендации сообщества по оформлению статей, основные шаблоны и особенности оформления реальных словарных статей. Рассмотрена проблема численной оценки семантической близости структурных элементов статей Wiktionary. Проведен анализ существующих программных продуктов для определения семантической близости таких элементов, изучены алгоритмы их функционирования, определены их преимущества и недостатки. Методы. Использованы методы математической статистики, учитывающие некоторые специфичные для Wiktionary форматы представления данных. Предложен метод определения семантической близости на основании статистических данных сравниваемых структурных элементов. Основные результаты. Сделаны выводы о невозможности прямого использования статей Wiktionary в качестве основы для построения семантической сети и о необходимости выявления скрытых структурных связей, для чего было предложено использовать метод оценки семантической близости предложений. Получен алгоритм, позволяющий на основе набора исходных предложений вычислить коэффициенты достоверности того, что каждая пара предложений является семантически близкой. Исследование количественных и качественных характеристик разработанного алгоритма показало его существенное преимущество над существующими решениями в производительности при несколько меньшей точности оценки семантической близости. Практическая значимость. Полученный алгоритм может быть полезен при разработке инструментов автоматического разбора словаря Wiktionary, а также при решении задач определения семантической близости небольших фрагментов текста на естественном языке в случае, если требования к производительности алгоритма являются более критичными, чем требования к его точности.

Ключевые слова: семантическая близость, математическая статистика, множества, токены, Wiktionary, семантический анализ, текст

Список литературы

1. Bessmertny I. Knowledge visualization based on semantic networks // Programming and Computer Software. 2010. V. 6. N 4. P. 197–204. doi: 10.1134/S036176881004002X
2. Nie J.Y., Brisebois M. An inferential approach to information retrieval and its implementation using a manual thesaurus // Artificial Intelligence Review. 1996. V. 10. N 5–6. P. 409–439.
3. Nugumanova A., Bessmertny I. Applying the latent smantic analysis to the issue of automatic extraction of collocations from the domain texts // Communications in Computer and Information Science. 2013. V. 394. P. 92–101. doi: 10.1007/978-3-642-41360-5_8
4. Wiktionary [Электронный ресурс]. Режим доступа: http://wiktionary.org/ свободный. Язык англ. (дата обращения 27.07.2015).
5. Пак А. Парсим русский язык [Электронный ресурс]. Режим доступа: http://habrahabr.ru/post/148124/ свободный. Язык рус. (дата обращения 05.08.2015).
6. Wikipedia: Manual of Style [Электронный ресурс]. Режим доступа: https://en.wikipedia.org/wiki/Wikipedia:Manual_of_Style свободный. Язык англ. (дата обращения 12.08.2015).
7. Инновации. Собственные технологии [Электронный ресурс]. Режим доступа: http://www.ispras.ru/technologies/texterra_text_mining_toolkit/ свободный. Язык рус. (дата обращения 01.09.2015).
8. Семантикус Semanticus [Электронный ресурс]. Режим доступа: http://semanticus.ru/ свободный. Язык рус. (дата обращения 08.09.2015).
9. S-Space [Электронный ресурс]. Режим доступа: https://github.com/fozziethebeat/S-Space/wiki/ свободный. Язык англ. (дата обращения 07.09.2015).
10. SemanticVectors [Электронный ресурс]. Режим доступа: https://github.com/semanticvectors/semanticvectors/wiki, свободный. Язык англ. (дата обращения 07.09.2015).
11. Варламов М.И., Коршунов А.В. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии // Машинное обучение и анализ данных. 2014. Т. 1. № 8. С. 1107–1125.
12. Hall J., Nilsson J., Nivre J. MaltParser [Электронный ресурс]. Режим доступа: http://www.maltparser.org/ свободный. Язык англ. (дата обращения 07.09.2015).
13. Шалиминов И. Методика определения близости на основе синтаксиса [Электронный ресурс]. Режим доступа: https://github.com/ishalyminov/syntactic_classification/wiki, свободный. Язык рус. (дата обращения 03.08.2015).
14. Велихов П.Е. Меры семантической близости статей Википедии и их применение к обработке текстов // Информационные технологии и вычислительные системы. 2009. № 1. С. 23–37.
15. Желудков А.В., Макаров Д.В., Фадеев П.В. Особенности алгоритмов нечеткого поиска // Инженерный вестник. 2014. № 12. С. 501–511.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License