Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2021-21-5-709-719
УДК 004.822
Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Фельдина Е.А., Махныткина О.В. Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 709–719. doi: 10.17586/2226-1494-2021-21-5-709-719
Аннотация
Предмет исследования. В работе предложен метод автоматического определения структуры дерева и ключевых тематик узлов в процессе построения дерева диалога по неразмеченным текстовым корпусам. Построение дерева диалога является одной из трудоемких задач при создании автоматической диалоговой системы и в большинстве случаев производится на основе ручной разметки, что занимает достаточно много времени и ресурсов. Метод. Разработанный метод иерархической кластеризации диалогов учитывает семантическую близость сообщений, позволяет выделять различное количество узлов на каждом уровне иерархии и ограничивать дерево диалогов в ширину и глубину. Алгоритм построения аннотаций узлов дерева диалога учитывает иерархию тем за счет построения тематических цепочек. В основе метода лежит комплексное использование методов обработки естественного языка (токенизация, лемматизация, частеречная разметка, построение векторных представлений слов и др.), анализа главных компонент для снижения размерности и методов кластерного анализа. Основные результаты. Эксперименты по построению структуры дерева диалога и аннотированию узлов показали большие возможности предложенного метода для построения автоматического дерева диалога. Точность распознавания на примере эталонного дерева диалога, содержащего 13 узлов на первом, 381 узел на втором и 299 узлов на третьем уровнях составила 0,8, 0,7 и 0,5 соответственно. Практическая значимость. Автоматическое построение деревьев диалога может быть востребовано при разработке диалоговых систем и повышения качества решения задачи генерации ответов на вопросы пользователей.
Ключевые слова: дерево диалога, диалоговая система, машинное обучение, кластерный анализ, обработка естественного языка
Список литературы
Список литературы
1. Yin J., Wang J. A text clustering algorithm using an online clustering scheme for initialization // Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 1995–2004. https://doi.org/10.1145/2939672.2939841
2. Svadas T., Jha J. Document cluster mining on text documents // International Journal of Computer Science and Mobile Computing. 2015. V. 4. N 6. P. 778–782.
3. Kim H., Kim H.K., Cho S. Improving spherical k-means for document clustering: Fast initialization, sparse centroid projection, and efficient cluster labeling // Expert Systems with Applications. 2020. V. 150. P. 113288. https://doi.org/10.1016/j.eswa.2020.113288
4. Abasi A., Khader A., Al-Betar M., Naim S., Alyasseri Z.A., Makhadmeh S. A novel hybrid multi-verse optimizer with K-means for text documents clustering // Neural Computing and Applications. 2020. V. 32. N 23. P. 17703–17729. https://doi.org/10.1007/s00521-020-04945-0
5. Mohammed S.M., Jacksi K., Zeebaree S.R.M. Glove word embedding and DBSCAN algorithms for semantic document clustering // Proc. 3rd International Conference on Advanced Science and Engineering (ICOASE). 2020. P. 211–216. https://doi.org/10.1109/ICOASE51841.2020.9436540
6. Cretulescu R., Morariu D., Breazu M., Volovici D. DBSCAN algorithm for document clustering // International Journal of Advanced Statistics and IT&C for Economics and Life Sciences. 2019. V. 9. N 1. P. 58–66. https://doi.org/10.2478/ijasitels-2019-0007
7. Kotouza M.T., Psomopoulos F., Mitkas P. A dockerized framework for hierarchical frequency-based document clustering on cloud computing infrastructures // Journal of Cloud Computing. 2020. V. 9. N 1. P. 1–17. https://doi.org/10.1186/s13677-019-0150-y
8. Popat S.K., Deshmukh P.B., Metre V.A. Hierarchical document clustering based on cosine similarity measure // Proc. 1st International Conference on Intelligent Systems and Information Management (ICISIM). 2017. P. 153–159. https://doi.org/10.1109/ICISIM.2017.8122166
9. Nagarajan R., Nair S., Puviarasan N., Aruna P. Document clustering using agglomerative hierarchical clustering approach (AHDC) and proposed TSG keyword extraction method // IJRET: International Journal of Research in Engineering and Technology. 2016. V. 5. N 11. P. 118–124. https://doi.org/10.15623/ijret.2016.0511023
10. Rekabdar B., Mousas C., Gupta B. Generative adversarial network with policy gradient for text summarization // Proc. 13th IEEE International Conference on Semantic Computing (ICSC). 2019. P. 204–207. https://doi.org/10.1109/ICOSC.2019.8665583
11. Zhang Y., Li D., Wang Y., Fang Y., Xiao W. Abstract text summarization with a convolutional Seq2seq model // Applied Sciences. 2019. V. 9. N 8. P. 1665. https://doi.org/10.3390/app9081665
12. Jindal S.G., Kaur A. Automatic keyword and sentence-based text summarization for software bug reports // IEEE Access. 2020. V. 8. P. 65352–65370. https://doi.org/10.1109/ACCESS.2020.2985222
13. Varalakshmi K.P.N., Kallimani J.S. Survey on extractive text summarization methods with multi-document datasets // Proc. 7th International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2018. P. 2113–2119. https://doi.org/10.1109/ICACCI.2018.8554768
14. Thomas N. An e-business chatbot using AIML and LSA // Proc. 5th International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2016. P. 2740–2742. https://doi.org/10.1109/ICACCI.2016.7732476
15. Touimi Y.B., Hadioui A., Faddouli N.E., Bennani S. Intelligent Chatbot-LDA recommender system // International Journal of Emerging Technologies in Learning. 2020. V. 15. N 20. P. 4–20. https://doi.org/10.3991/ijet.v15i20.15657
16. Юсупов И.Ф., Трофимова М.В., Бурцев М.С. Построение и использование диалогового графа для улучшения оценки качества в целенаправленном диалоге // Труды Московского физико-технического института (национального исследовательского университета). 2020. Т. 12. № 3(47). С. 75–86.
17. Feldina E., Makhnytkina O. Clustering approach to topic modeling in users dialogue // Advances in Intelligent Systems and Computing. 2021. V. 1251 AISC. P. 611–617. https://doi.org/10.1007/978-3-030-55187-2_44