doi: 10.17586/2226-1494-2018-18-5-863-869


УДК 004.912:303.7

НЕЛОКАЛЬНЫЕ СЕМАНТИЧЕСКИЕ СВЯЗИ В РУССКОЯЗЫЧНЫХ ТЕКСТАХ

Боярский К.К., Каневский Е.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Боярский К.К., Каневский Е.А. Нелокальные семантические связи в русскоязычных текстах // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 5. С. 863–869. doi: 10.17586/2226-1494-2018-18-5-863-869


Аннотация
Предмет исследования. Одним из способов автоматического анализа текстов является построение деревьев подчинения, в которых слова предложения связываются друг с другом семантико-синтаксическими связями. В работе выполнено исследование русскоязычных текстов, имеющих общеполитический, художественный и узкоспециальный характер. Особое внимание уделено случаям, когда связываются слова, удаленные друг от друга на значительное расстояние. Метод. С помощью семантико-синтаксического парсера строятся деревья подчинения, после чего производится подсчет распределения связей разных типов по длинам. Исследованы частоты появления нелокальных связей. Основные результаты. Показано, что доля нелокальных связей в зависимости от типа может доходить до десятков процентов. Особенно это существенно для связей, исходящих из предикатных вершин (субъектные, обстоятельственные и т.д.), а также для анафорических. Отмечено, что общедоступные семантические классификаторы и тезаурусы имеют ограниченную применимость для решения задачи правильного связывания удаленных слов в предложении. Практическая значимость. Показано, что при извлечении из текстов информации, носящей онтологический или сценарный характер, а также при решении задач кореференции нельзя пренебрегать длинными синтаксическими связями, образующими в результате нелокальный семантический контекст. Сделан вывод, что анализ только n-грамм недостаточен для адекватного выделения из текста информации, носящей онтологический или сценарный характер.В связи с этим возникает необходимость составления микрословарей, ориентированных на определенные синтаксические конструкции.

Ключевые слова: семантико-синтаксический анализ, синтаксические связи, дерево подчинения, n-граммы, кореференция

Список литературы
1. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е изд. СПб.: БХВ-Петербург, 2007.
2. Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны в задачах автоматической обработки текста // Труды международной конференции «Диалог 2007». Москва, 2007. С. 70–75.
3. Kormacheva D., Pivovarova L., Kopotev M. Automatic collocation extraction and classification of automatically obtained bigrams // Proc. Workshop on Computational, Cognitive, and Linguistic Approaches to the Analysis of Complex Words and Collocations. Tubingen, Germany, 2014. P. 27–33.
4. Enikeeva E.V., Mitrofanova O.A. Russian collocation extraction based on word embeddings // Proc. Int. Conf. Dialogue 2017. Moscow, 2017. P. 52–64.
5. Khomitsevich O., Boyarsky K., Kanevsky E., Bulusheva A., Mendelev V.S. Flexible context extraction for keywords in Russian automatic speech recognition results // Communications in Computer and Information Science. 2017. V. 661. P. 145–154. doi: 10.1007/978-3-319-52920-2_14
6. Дыбина А. Разработка текстовой базы на основе анализа структуры научного текста // International Journal Information Technologies & Knowledge. 2012. V. 6. N 1. P. 93–99.
7. Боярский К.К., Каневский Е.А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5. С. 869–876. doi: 10.17586/2226-1494-2015-15-5-869-876
8. Курти О. Постройка моделей судов. Энциклопедия судомоделизма. Л.: Судостроение, 1977. 544 с.
9. Rоммe М. L'Art de la Marine, оu Principes еt Préceptes Generaux dеl'Art de Construire, d'Armer, de Manœuvrer et de Conduire dеs Vasseaux. La Rochelle, 1787. 542 p.
10. Pivovarova L., Pronoza E., Yagunova E., Pronoza A. ParaPhraser: Russian paraphrase corpus and shared task // Communications in Computer and Information Science. 2017. V. 789. P. 211–225. doi: 10.1007/978-3-319-71746-3_18
11.  BoyarskyK., Kanevsky E. Effect of semantic parsing depth on the identification of paraphrases in Russian texts // Communications in Computer and Information Science. 2018. V. 789. P. 226–241. doi: 10.1007/978-3-319-71746-3_19
12. Кобзарева Т.Ю. Построение и использование проективных фрагментов именных и предложных групп // Труды международной конференции «Диалог 2007». Москва, 2007. С. 242–249.
13. Рогожникова Р.П. Толковый словарь сочетаний, эквивалентных слову. М.: Астрель, АСТ, 2003. 416 с.
14. Лукашевич Н.В. Тезаурус в задачах информационного поиска. М.: МГУ, 2011. 512 с. Тузов В.А. Компьютерная семантика русского языка. СПб.: СПбГУ, 2004. 400 с.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика