doi: 10.17586/2226-1494-2015-15-5-869-876


СЕМАНТИКО-СИНТАКСИЧЕСКИЙ ПАРСЕР SEMSIN

Боярский К.К., Каневский Е.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Боярский К.К., Каневский Е.А. Семантико-синтаксический парсер SemSin // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5. С. 869–876.

Аннотация

Описан принцип работы семантико-синтаксического парсера SemSin, строящего дерево зависимостей для предложе- ний русского языка. Парсер состоит из четырех блоков: словаря, морфологического анализатора, продукционных правил и лексического анализатора. Важной логической частью парсера является предсинтаксический модуль, который согласует и дополняет результаты разбора морфологического блока, разделяет абзацы текста на отдельные предложения, а также осуществляет предварительное снятие омонимии. Особенностью представляемого парсера является открытый тип управления – оно осуществляется с помощью набора продукционных правил. Богатый набор команд обеспечивает возможность как морфологического, так и семантико-синтаксического анализа предложения. Приведена последовательность применения правил, рассмотрены примеры их работы. Особенностью правил является принятие решений об установлении синтаксических связей с одновременным снятием морфологической и семантической омонимии. Лексический анализатор обеспечивает выполнение команд и правил, а также осуществляет управление парсером в ручном или автоматическом режимах разбора текста. В первом случае анализ производится интерактивно с возможностью пошагового исполнения правил и просмотра получившегося дерева разбора. Во втором случае результаты разбора записываются в xml-файл. Активное использование синтаксической и семантической словарной информации позволяет значительно уменьшить неоднозначность разбора. Кроме разметки текста, парсер может использоваться также как инструмент для извлечения информации из текстов на естественном языке. 


Ключевые слова: автоматический анализ текста, актанты, дерево зависимостей, семантические классы, лексема, парсер, продукционные правила, семантика.

Список литературы

1. Ляшевская О.Н., Астафьева И., Бонч-Осмоловская А., Гарейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А., Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического анализа текста: морфологические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии. 2010. № 9 (16). С. 318–326.

2. Толдова С.Ю., Соколова Е.Г., Астафьева И., Гарейшина А., Королева А., Привознов Д., Сидорова Е., Тупикина Л., Ляшевская О.Н. Оценка методов автоматического анализа текста 2011–2012: синтаксические парсеры русского языка // Компьютерная лингвистика и интеллектуальные технологии. 2012. № 11. С. 77–90.

3. Каневский Е.А., Боярский К.К. Морфолого-лексический анализатор и классификация текста // Прикладная лингвистика в науке и образовании. Материалы V международной научно-практической конференции. Санкт-Петербург, 2010. С. 157–163.

4. Каневский Е.А., Боярский К.К. Семантико-синтаксический анализатор SemSin // Компьютерная лингвистика и интеллектуальные технологии. 2012.

5. Боярский К.К., Каневский Е.А., Лезин Г.В., Калиниченко Л.А., Скворцов Н.А. Автоматизация процесса извлечения онтологической информации из вербальных терминологических словарей (на примере терминологического словаря задачи межзвездного поглощения) // Труды XII Всероссийской конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL-2010). Казань, 2010. С. 257–264.

6. Тузов В.А. Компьютерная семантика русского языка. СПб.: СПбГУ, 2004. 400 с.

7. Боярский К.К., Каневский Е.А., Стафеев С.К. Использование словарной информации при анализе текста // Научно-технический вестник информационных технологий, механики и оптики. 2012. № 3 (79). С. 87–91.

8. Каневский Е.А., Колпакова Н.В. К вопросу построения морфологического анализатора // Компьютерная лингвистика и интеллектуальные технологии. 1999. Т. 2. С. 98–106.

9. Боярский К.К., Каневский Е.А., Клименко Е.Н. Морфологический анализ текста в системе MAZE-32 // Информационные технологии в гуманитарных и общественных науках. СПб.: СПб ЭМИ РАН, 2001. Вып. 11. С. 1–8.

10. Кобзарева Т.Ю., Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в РЯ на основе словаря диагностических ситуаций // Компьютерная лингвистика и интеллектуальные технологии. 2002. С. 258–268.

11. Боярский К.К., Каневский Е.А. Предсинтаксический модуль в анализаторе SemSin // Интернет и современное общество. Санкт-Петербург, 2013. С. 280–286.

12.Дорохина Г.В., Журавлёв А.О., Бондаренко Е.А. Исследование алгоритма морфологического анализа слов с дефисным написанием // Системы и средства искусственного интеллекта ССИИ-2012. Донецк, 2012. С. 17–24.

13. Захаров В.П. Метод морфологического анализа незнакомых слов текста на основе словообразовательных моделей // Материалы XLIV Международной филологической конференции. Санкт-Петербург, 2015. С. 581–582.

14. Боярский К.К., Каневский Е.А. Автоматическое выявление фамилий в тексте // В сб.: Информационные системы для научных исследований. Санкт-Петербург, 2012. С. 280–286.

15. Национальный корпус русского языка [Электронный ресурс]. Режим доступа: http://www.ruscorpora.ru/, свободный. Яз. рус. (дата обращения: 2.03.2015).

16. Рогожникова Р.П. Толковый словарь сочетаний, эквивалентных слову. М.: Астрель: АСТ, 2003. 416 с.

17. Каневский Е.А., Боярский К.К. Особые слова в русскоязычном тексте // Материалы XLII Международной филологической конференции. Санкт-Петербург, 2013. С. 47–52.

18. Боярский К.К., Каневский Е.А. Язык правил для построения синтаксического дерева // Интернет и современное общество (IMS-2011). Санкт-Петербург, 2011. С. 233–237.

19. Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. 2004. Т. 8. № 1. С. 31–80.

20. Боярский К.К., Каневский Е.А. Разбиение текста на предложения // Дискуссия теоретиков и практиков. 2010. № 3. С. 135–137.

21. Авдеева Н.А., Боярский К.К. О синтаксической связи в числовых конструкциях // Материалы XLIV Международной филологической конференции. Санкт-Петербург, 2015. С. 569–570.

22. Боярский К.К., Каневский Е.А., Степукова А.В. Выявление анафорических отношений при автоматическом анализе текста // Научно-технический вестник информационных технологий, механики и оптики. 2013. № 5 (87). С. 108–112.

23. Боярский К.К., Каневский Е.А., Лезин Г.В. О предварительном преобразовании синтаксического дерева предложения // Интернет и современное общество. Санкт-Петербург, 2010. С. 3–8.

24. Артемова Г., Боярский К.К., Гусарова Н.Ф., Добренко Н.В., Каневский Е.А. Категоризация текстов для структурирования массива исторических документов // Труды XVI Всероссийской конференции Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL- 2014). Дубна, 2014. С. 159–164. 

25. Artemova G., Gouzévitch D., Gusarova N., Dobrenko N., Kanevsky E., Petrova D. Text categorization for generation of historical shipbuilding ontology // Communications in Computer and Information Science. 2014. V. 468. P. 1–14.



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика