УДК81'322.2

АЛГОРИТМ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА, ОСНОВАННЫЙ НА БАЗОВЫХ СЕМАНТИЧЕСКИХ ШАБЛОНАХ С УДАЛЕНИЕМ

Мочалова А. В.


Читать статью полностью 

Аннотация

 В связи с ростом объема текстовой информации все более актуальными становятся системы автоматической обработки текста. Одной из основных задач таких систем является задача семантического анализа. В работе предлагается алгоритм поиска семантических зависимостей между частями предложений анализируемого текста, основанный на сопоставлении текста с базовыми семантическими шаблонами. Каждое предложение, поступающее на вход программы, постепенно сокращается: некоторые части предложения в соответствии с правилами, описанными в семантических шаблонах, добавляются в очередь с приоритетом, после чего на каждой итерации алгоритма из анализируемого предложения изымается та его часть, которая имеет в очереди наибольший приоритет. Для определения приоритета в такой очереди используются два значения: значение приоритета группы, к которой принадлежит семантическая зависимость, описанная в шаблоне, и позиция слова (или последнего слова из набора, если элемент, хранимый в очереди, состоит из нескольких слов) в анализируемом предложении. В ходе работы составлено 2160 базовых семантических шаблонов, а также на языке программирования Java реализован предлагаемый в статье алгоритм. Применение в процессе реализации алгоритма экспертной системы Drools, использующей алгоритм быстрого сопоставления с шаблонами PHREAK, обеспечило высокую скорость работы семантического анализатора. По результатам тестирования сделан вывод, что предложенный алгоритм семантического анализа без использования экспертной системы Drools работает медленнее в среднем в 6–8 раз. Программная реализация алгоритма показала, что результаты работы программы быть использованы в системах автоматической обработки текстов. Разработанный семантический анализатор используется в качестве составного модуля интеллектуальной вопросно-ответной системы. 


Ключевые слова: семантические зависимости, семантический анализатор, семантические шаблоны.

Список литературы
1. Рабчевский Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов
для информационного поиска // Труды XI Всероссийской научной конференции «Электронные библио-
теки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 69–77.
2. Филлмор Ч. Дело о падеже // Новое в зарубежной лингвистике. Вып. X. М.: Прогресс, 1981. С. 369–495.
3. Филлмор Ч. Дело о падеже открывается вновь // Новое в зарубежной лингвистике. Вып. X. М.: Про-
гресс, 1981. С. 496–530.
4. Чубинидзе К.А. Метод синтактико-семантических шаблонов и его применение в информационной
технологии интерпретации текстов: дис… . канд. техн. наук. М., 2006. 156 с.
5. Большаков И.А. Какие словосочетания следует хранить в словарях? // Труды международного семина-
ра Диалог'2002 по компьютерной лингвистике и ее приложениям. Протвино: 2002. Т. 2. С. 61–69.
6. Загорулько Ю.А., Сидорова. Е.А. Система извлечения предметной терминологии из текста на основе
лексико-синтаксических шаблонов // Труды XIII Международной конференции «Проблемы управле-
ния и моделирования в сложных системах». Самара, 2011. С. 506–511.
7. Hearst M.A. Automatic acquisition of hyponyms from large text corpora // Proc. 14th International Conference
on Computational Linguistics, 1992. P. 539–545.
8. Лайонз Дж. Введение в теоретическую лингвистику. М.: Прогресс, 1978. 544 с.
9. Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы
ДИАЛИНГ): дис. … канд. техн. наук. М., 2001. 120 с.
10. Downey A.B. Think Python. O'Reilly Media, 2012. 300 p.
11. Drools Documentation [Электронный ресурс]. Режим доступа: http://docs.jboss.org/drools/release/6.0.1.
Final/drools-docs/html_single, свободный. Яз. англ. (дата обращения 25.05.2014).
12. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. М.: Русский язык, 1980.
880 с.
13. Белоногов Г.Г., Зеленков Ю.Г. Алгоритм морфологического анализа русских слов // Вопросы инфор-
мационной теории и практики. 1985. № 53. С. 62–93.
14. О программе mystem [Электронный ресурс]. Режим доступа: http://api.yandex.ru/mystem, свободный.
Яз. рус. (дата обращения 17.03.2014)
15. Зеленков Ю.Г., Сегалович И.В., Титов В.А. Вероятностная модель снятия морфологической омонимии
на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и ин-
теллектуальные технологии. 2005. С. 188–197.
16. Автоматическая обработка текста [Электронный ресурс]. Режим доступа: http://www.aot.ru, свобод-
ный. Яз. рус. (дата обращения 12.05.2014).
17. Мочалова А.В., Мочалов В.А. Интеллектуальная вопросно-ответная система // Информационные тех-
нологии. 2011. № 5. С. 6–12.
Информация 2001-2017 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика