НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2016-16-3-482-496
УДК 004.91
АВТОМАТИЧЕСКАЯ СУММАРИЗАЦИЯ ВЕБ-ФОРУМОВ КАК ИСТОЧНИКОВ ПРОФЕССИОНАЛЬНО ЗНАЧИМОЙ ИНФОРМАЦИИ
Читать статью полностью
Ссылка для цитирования: Бурая К.И., Виноградов П.Д., Грозин В.А., Гусарова Н.Ф., Добренко Н.В., Трофимов В.А. Автоматическая суммаризация веб-форумов как источников профессионально значимой информации // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 3. С. 482–496. doi: 10.17586/2226-1494-2016-16-3-482-496
Аннотация
Предмет исследования. Конкурентным преимуществом современного специалиста является максимально широкий охват источников информации, полезных с точки зрения получения и освоения актуальной профессионально значимой информации. Среди таких источников значительное место занимают профессиональные веб-форумы. В статье рассматривается задача автоматической суммаризации текста форума, т.е. выделения тех его фрагментов, которые содержат профессионально значимую информацию. Метод. Исследование строится на базе статистического анализа текстов форумов посредством машинного обучения.Для исследований отобраны шесть веб-форумов, тематикой которых являются аспекты технологий различных предметных областей. Разметка форумов проводилась экспертным путем. С использованием различных методов машинного обучения построены модели, отражающие функциональную связь между оцениваемыми характеристиками качества извлечения профессионально значимой информации и признаками постов. Для оценки качества моделей использованы кумулятивная метрика NDCG и ее дисперсия. Основные результаты. Показано, что в оценке эффективности извлечения профессионально значимой информации важную роль играет контекст запроса. Отобраны характерные для извлечения профессионально значимой информацииконтексты запросов, отражающие различные трактовки информационной потребности пользователей, обозначенные терминами релевантность и информативность. Построены шкалы для их оценок, соответствующие общемировым подходам. Экспериментально подтверждено, что результаты суммаризации форумов, выполняемой экспертами вручную, существенно зависят от контекста запроса. Показано, что в общей оценке эффективности извлечения профессионально значимой информации релевантность достаточно хорошо описывается линейной комбинацией признаков, а для оценки информативности уже требуется их нелинейная комбинация. При этом при оценке релевантности ведущую роль играют признаки, связанные с ключевыми словами, а при оценке информативности на первый план выступают характеристики текста поста в целом, а также признаки, связанные со структурой треда как текста и как социального графа. Показано, что эффективность извлечения информативных постов слабо зависит от способа задания ключевых слов, в то время как для извлечения релевантных постов такая зависимость существенна. Выявлен способ выделения ключевых слов, наиболее эффективный для реальных приложений. Показано, что при выделении релевантных постов линейные методы выигрывают в эффективности по сравнению с нелинейными, а модель LDA занимает промежуточное положение; в то же время при выделении информативных постов линейные и нелинейные методы идентичны по эффективности, а модель LDA значительно уступает им обоим. Предложена содержательная модель, позволяющая объяснить полученные результаты. Практическая значимость. Полученные результаты могут служить основой для построения и новых и адекватного применения существующих алгоритмов суммаризации веб-форумов, что позволит существенно сократить временные и ресурсные затраты пользователя на получение и изучение максимально свежей профессионально значимой информации.
Список литературы
1. Васильев В.Н., Лисицына Л.С. Планирование и оценивание ожидаемых результатов освоения ком-петенций ФГОС ВПО // Научно-технический вестник информационных технологий, механики и оп-тики. 2013. № 2 (84). С. 142–148.
2. Васильев В.Н., Лисицына Л.С., Шехонин А.А. Концептуальная модель для извлечения результатов обучения из избыточного содержания образования // Научно-технический вестник СПбГУ ИТМО. 2010. № 4 (68). С. 104–108.
3. Лисицына Л.С. Методология проектирования модульных компетентностно-ориентированных обра-зовательных программ. СПб.: СПбГУ ИТМО, 2009. 50 с.
4. Дружинин В.Н. Психология. 2-е изд. СПб.: изд-во Питер, 2009. 656 с.
5. Концепция и методика разработки контрольно-оценочных средств [Электроннй ресурс]. Режим доступа: http://www.firo.ru/wp-content/uploads/2012/12/Concetion.doc, своб. (дата обращения 29.04.2016)
6. Столяренко А.М. Психология и педагогика. 3-е изд. М.: Юнити-Дана, 2010. 544 с.
7. Гусарова Н.Ф., Коваленко М.Н., Маятин А.В., Петров В.А., Шилов И.В. Использование иерархиче-ски организованного текстового форума как средства online поддержки научно-технического проектирования // Научно-технический вестник информационных технологий, механики и оптики. 2005. № 20. С. 243–247.
8. Grozin V.A., Dobrenko N.V., Gusarova N. F., Tao N. The application of machine learning methods for analysis of text forums for creating learning objects. Proc. Int. Conf. on Computational Linguistics and In-tellectual Technologies. Moscow, 2015. V. 1. N 14. P. 202–213.
9. Grozin V.A., Gusarova N.F., Dobrenko N.V. Feature selection for language-independent text forum sum-marization // Proc. 6th Int. Conf. on Knowledge Engineering and Semantic Web (KESW - 2015). Moscow, 2015. V. 518. P. 63–71. doi: 10.1007/978-3-319-24543-0_5
10. Бурая К.И., Грозин В.А., Гусарова Н.Ф., Добренко Н.В. Методы машинного обучения для выделе-ния профессионально значимой информации из веб-форумов // Дистанционное и виртуальное обра-зование. 2015. №12. С. 46–63.
11. Almahy I., Salim N. Web discussion summarization: study review // Proc. 1st Int. Conf. on Advanced Data and Information Engineering (DaEng-2013). Kuala Lumpur, Malaysia, 2013. P. 649–656. doi: 10.1007/978-981-4585-18-7_73
12. Воронцов К.В. Машинное обучение (курс лекций). Электронный ресурс. – Режим доступа: http://www.machinelearning.ru/wiki/index.php?title= Машинное обучение (курс лекций, К.В.Воронцов), своб. (дата обращения 29.04.2016).
13. Bishop C.М. Pattern Recognition and Machine Learning. Springer, 2006. 738 p.
14. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2011. 528 с.
15. Beliga S., Mesrovic A., Martinic-Ipsic S. An overview of graph-based keyword extraction methods and approaches // Journal of Information and Organizational Sciences. 2015. V. 39. N 1. P. 1–20.
16. Zhao H., Zeng Q. Micro-blog keyword extraction method based on graph model and semantic space // Journal оf Multimedia. 2013. V. 8. N 5. P. 611–617. doi: 10.4304/jmm.8.5.611-617
17. Sondhi P., Gupta M., Zhai C.X., Hockenmaier J. Shallow information extraction from medical forum data // Proc. 23rd Int. Conf. on Computational Linguistics, COLING '10. Beijing, China, 2010. P. 1158–1166.
18. Elbedweihy K.M., Wrigley S.N., Clough P., Ciravegna F. An overview of semantic search evaluation initi-atives // Journal of Web Semantics. 2015. V. 30. P. 82–105. doi: 10.1016/j.websem.2014.10.001
19. Saracevic T. Evaluation of evaluation in information retrieval // SIGIR Forum. 1995. P. 137–146.
20. Kelly D. Methods for evaluating interactive information retrieval systems with users // Foundations and Trends Information Retrieval. 2009. V. 3. N 1–2. P. 1–1224. doi: 10.1561/1500000012
21. Nenkova A., McKeown K. A survey of text summarization techniques // Mining Text Data. 2012. P. 43–76. doi: 10.1007/978-1-4614-3223-4_3
22. Harman D. Information Retrieval Evaluation. Morgan & Claypool Publishers, 2011.
23. Biyani P., Bhati S., Caragea C., Mitra P. Using non-lexical features for identifying factual and opiniona-tive threads in online forums // Knowledge-Based Systems. 2014. V. 69. N 1. P. 170–178. doi: 10.1016/j.knosys.2014.04.048
24. Smine B., Faiz R., Desclés J-P. Relevant learning objects extraction based on semantic annotation // Interanational Journal of Metadata, Semantics and Ontologies. 2013. V. 8. N 1. P. 13–27. doi: 10.1504/IJMSO.2013.054187
25. Nettleton D.F. Data mining of social networks represented as graphs // Computer Science Review. 2013. V. 7. N 1. P. 1–34. doi: 10.1016/j.cosrev.2012.12.001
26. Romero C., Lopez M.-I., Luna J.-M., Ventura S. Predicting students’ final performance from participation in on-line discussion forums // Computers and Education. 2013. V. 68. P. 458–472. doi: 10.1016/j.compedu.2013.06.009
27. Wang B.-X., Liu B.-Q., Sun C.-J., Wang X.-L., Sun L. Thread segmentation based answer detection in Chinese online forums // Acta Automatica Sinica. 2013. V. 39. N 1. P. 11–20. doi: 10.3724/SP.J.1004.2013.00011
28. Mihalcea R., Banea C., Wiebe J. Learning multilingual subjective language via cross-lingual projections // Proc. 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic, 2007. P. 976–983.
29. Järvelin K., Kekäläinen J. Cumulated gain-based evaluation of IR techniques // ACM Transactions on Information Systems. 2002. V. 20. N 4. P. 422–446. doi: 10.1145/582415.582418
30. Shai S.-S., Shai B.-D. Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press, 2014. 409 p.
31. Herbrich R., Graepel T., Obermayer K. Large-margin thresholded ensembles for ordinal regression: theory and practice / In: Advances in Large Margin Classifiers. MIT Press, 2000. P. 115–132.
32. Croft W.B. Combining approaches to information retrieval / In: Advances in Information Retrieval. Ed. W.B. Croft. Springer, 2000. P. 1–36.