DOI: 10.17586/2226-1494-2018-18-4-690-694


УДК004.89

КОМПОЗИЦИЯ АЛГОРИТМОВ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ ТЕКСТОВ КАК СРЕДСТВО ИНТЕЛЛЕКТУАЛИЗАЦИИ ПРОЕКТИРОВАНИЯ ТЕХНИЧЕСКИХ СИСТЕМ

Добренко Н. В.


Язык статьи - русский

Ссылка для цитирования: Добренко Н.В. Композиция алгоритмов тематической сегментации текстов как средство интеллектуализации проектирования технических систем // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 4. С. 690–694. doi: 10.17586/2226-1494-2018-18-4-690-694

Аннотация

Рассматривается задача тематической сегментации протяженных текстов для поддержки работы проектировщика технических систем. На примере показано, что разные алгоритмы сегментации выделяют содержательно разные фрагменты текста, и композиция алгоритмов в классической форме, т.е. путем суммирования результатов с целью выделения одного наилучшего, представляется неправомерной. В то же время одновременная демонстрация нескольких вариантов тематической сегментации позволит читателю получить интегральное представление о структуре текста, облегчив тем самым выбор эффективной стратегии освоения текста. Описана построенная система визуализации тематической сегментации протяженных текстов, позволяющая пользователю выделять и анализировать не весь текст целиком, а только фрагменты, соответствующие его текущим информационным потребностям. Система позволяет одновременно просматривать результаты сегментации текста, выполняемые различными алгоритмами. Тем самым расширяются возможности пользователя по оперативному и эффективному анализу и освоению большого объема текстовой информации.


Ключевые слова: тематическая сегментация, композиция алгоритмов, система визуализации

Благодарности. Работа выполнена при поддержке НИР-ФУНД 617042 в Университете ИТМО.

Список литературы
 
  1. Jurafsky D., Martin J.H. Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics. PearsonPrentice Hall, 2009.988 p.
  2. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.:Питер, 2000. 384 с.
  3. ван Дейк Т.А., Кинч В. Статегии понимания связного текста. М., 1988.
  4. Vorontsov K.V., Potapenko A.A. Additive regularization of topic models // Machine Learning. 2014. V. 101. N 1-3.
    P. 303–323. doi: 10.1007/s10994-014-5476-6
  5. Boyd-Graber J., Chang J., Gerrish S., Wang C., Blei D. Reading tea leaves: how humans interpret topic models // Proc. 23rd Annual Conference on Neural Information Processing Systems (NIPS). Vancouver, Canada, 2009. P. 288–296.
  6. Liu L., Tang L., Dong W., Yao S., Zhou W. An overview of topic modeling and its current applications in bioinformatics // SpringerPlus. 2016. V. 5. P. 1608.doi: 10.1186/s40064-016-3252-8
  7. Боярский К.К., Гусарова Н.Ф., Добренко Н.В., Каневский Е.А., Авдеева Н.А. Исследование специфики применения алгоритмов тематической сегментации для научных текстов // Аналитика и управление данными в областях с интенсивным использованием данных. 2015. С. 181–189.
  8. Бурая К.И., Грозин В.А., Гусарова Н.Ф., Добренко Н.В. Методы машинного обучения для выделения профессионально значимой информации из веб-форумов // Дистанционное и виртуальное обучение. 2015. № 12(102). С. 46–63.
  9. Бурая К.И., Виноградов П.Д., Грозин В.А., Гусарова Н.Ф., Добренко Н.В., Трофимов В.А. Автоматическая суммаризация веб-форумов как источников профессионально значимой информации // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 3(103). С. 482–496. doi: 10.17586/2226-1494-2016-16-3-482-496
  10. Grozin V.A., Dobrenko N.V., Gusarova N.F., Ning T. The application of machine learning methods for analysis of text forums for creating learning objects. // Proc. Int. Conf. on Computational Linguistics and Intellectual Technologies. Moscow, 2015. V. 1. N 14. P. 202–213.
  11. Rоммe М. L' Art de la Marine, оu Principes еt Préceptes Generaux dе l'Art de Construire, d'Armer , de Manœuvrer et de Conduire dеs Vasseaux. LaRochelle, 1787. ChapitreVII.
  12. Айсина Р.М. Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение и анализ данных. 2015. Т. 1. № 11. С. 1584–1618.
  13. Янина А.О., Воронцов К.В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Интеллектуализация обработки информации. Тезисы докладов 11-й Международной конференции. Москва, 2016.С. 186–187.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2018 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика