Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке

Фельдина Евгения Александровна, Махныткина Олеся Владимировна

doi:10.17586/2226-1494-2021-21-5-709-719

2021 , ТОМ 21, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2021-21-5-709-719

УДК 004.822

Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке

Фельдина Е.А., Махныткина О.В.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Фельдина Е.А., Махныткина О.В. Автоматическое построение дерева диалога по неразмеченным текстовым корпусам на русском языке // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 709–719. doi: 10.17586/2226-1494-2021-21-5-709-719

Аннотация

Предмет исследования. В работе предложен метод автоматического определения структуры дерева и ключевых тематик узлов в процессе построения дерева диалога по неразмеченным текстовым корпусам. Построение дерева диалога является одной из трудоемких задач при создании автоматической диалоговой системы и в большинстве случаев производится на основе ручной разметки, что занимает достаточно много времени и ресурсов. Метод. Разработанный метод иерархической кластеризации диалогов учитывает семантическую близость сообщений, позволяет выделять различное количество узлов на каждом уровне иерархии и ограничивать дерево диалогов в ширину и глубину. Алгоритм построения аннотаций узлов дерева диалога учитывает иерархию тем за счет построения тематических цепочек. В основе метода лежит комплексное использование методов обработки естественного языка (токенизация, лемматизация, частеречная разметка, построение векторных представлений слов и др.), анализа главных компонент для снижения размерности и методов кластерного анализа. Основные результаты. Эксперименты по построению структуры дерева диалога и аннотированию узлов показали большие возможности предложенного метода для построения автоматического дерева диалога. Точность распознавания на примере эталонного дерева диалога, содержащего 13 узлов на первом, 381 узел на втором и 299 узлов на третьем уровнях составила 0,8, 0,7 и 0,5 соответственно. Практическая значимость. Автоматическое построение деревьев диалога может быть востребовано при разработке диалоговых систем и повышения качества решения задачи генерации ответов на вопросы пользователей.

Ключевые слова: дерево диалога, диалоговая система, машинное обучение, кластерный анализ, обработка естественного языка

Список литературы

1. Yin J., Wang J. A text clustering algorithm using an online clustering scheme for initialization // Proc. of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. P. 1995–2004. https://doi.org/10.1145/2939672.2939841

2. Svadas T., Jha J. Document cluster mining on text documents // International Journal of Computer Science and Mobile Computing. 2015. V. 4. N 6. P. 778–782.

3. Kim H., Kim H.K., Cho S. Improving spherical k-means for document clustering: Fast initialization, sparse centroid projection, and efficient cluster labeling // Expert Systems with Applications. 2020. V. 150. P. 113288. https://doi.org/10.1016/j.eswa.2020.113288

4. Abasi A., Khader A., Al-Betar M., Naim S., Alyasseri Z.A., Makhadmeh S. A novel hybrid multi-verse optimizer with K-means for text documents clustering // Neural Computing and Applications. 2020. V. 32. N 23. P. 17703–17729. https://doi.org/10.1007/s00521-020-04945-0

5. Mohammed S.M., Jacksi K., Zeebaree S.R.M. Glove word embedding and DBSCAN algorithms for semantic document clustering // Proc. 3rd International Conference on Advanced Science and Engineering (ICOASE). 2020. P. 211–216. https://doi.org/10.1109/ICOASE51841.2020.9436540

6. Cretulescu R., Morariu D., Breazu M., Volovici D. DBSCAN algorithm for document clustering // International Journal of Advanced Statistics and IT&C for Economics and Life Sciences. 2019. V. 9. N 1. P. 58–66. https://doi.org/10.2478/ijasitels-2019-0007

7. Kotouza M.T., Psomopoulos F., Mitkas P. A dockerized framework for hierarchical frequency-based document clustering on cloud computing infrastructures // Journal of Cloud Computing. 2020. V. 9. N 1. P. 1–17. https://doi.org/10.1186/s13677-019-0150-y

8. Popat S.K., Deshmukh P.B., Metre V.A. Hierarchical document clustering based on cosine similarity measure // Proc. 1st International Conference on Intelligent Systems and Information Management (ICISIM). 2017. P. 153–159. https://doi.org/10.1109/ICISIM.2017.8122166

9. Nagarajan R., Nair S., Puviarasan N., Aruna P. Document clustering using agglomerative hierarchical clustering approach (AHDC) and proposed TSG keyword extraction method // IJRET: International Journal of Research in Engineering and Technology. 2016. V. 5. N 11. P. 118–124. https://doi.org/10.15623/ijret.2016.0511023

10. Rekabdar B., Mousas C., Gupta B. Generative adversarial network with policy gradient for text summarization // Proc. 13th IEEE International Conference on Semantic Computing (ICSC). 2019. P. 204–207. https://doi.org/10.1109/ICOSC.2019.8665583

11. Zhang Y., Li D., Wang Y., Fang Y., Xiao W. Abstract text summarization with a convolutional Seq2seq model // Applied Sciences. 2019. V. 9. N 8. P. 1665. https://doi.org/10.3390/app9081665

12. Jindal S.G., Kaur A. Automatic keyword and sentence-based text summarization for software bug reports // IEEE Access. 2020. V. 8. P. 65352–65370. https://doi.org/10.1109/ACCESS.2020.2985222

13. Varalakshmi K.P.N., Kallimani J.S. Survey on extractive text summarization methods with multi-document datasets // Proc. 7th International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2018. P. 2113–2119. https://doi.org/10.1109/ICACCI.2018.8554768

14. Thomas N. An e-business chatbot using AIML and LSA // Proc. 5th International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2016. P. 2740–2742. https://doi.org/10.1109/ICACCI.2016.7732476

15. Touimi Y.B., Hadioui A., Faddouli N.E., Bennani S. Intelligent Chatbot-LDA recommender system // International Journal of Emerging Technologies in Learning. 2020. V. 15. N 20. P. 4–20. https://doi.org/10.3991/ijet.v15i20.15657

16. Юсупов И.Ф., Трофимова М.В., Бурцев М.С. Построение и использование диалогового графа для улучшения оценки качества в целенаправленном диалоге // Труды Московского физико-технического института (национального исследовательского университета). 2020. Т. 12. № 3(47). С. 75–86.

17. Feldina E., Makhnytkina O. Clustering approach to topic modeling in users dialogue // Advances in Intelligent Systems and Computing. 2021. V. 1251 AISC. P. 611–617. https://doi.org/10.1007/978-3-030-55187-2_44

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License