Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией

Ходорченко Мария Андреевна , Бутаков Николай Алексеевич, Насонов Денис Александрович, Фирулик Михаил Юрьевич

doi:10.17586/2226-1494-2023-23-1-112-120

2023 , ТОМ 23, НОМЕР 1 ( январь-февраль )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2023-23-1-112-120

УДК 004.912

Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией

Ходорченко М.А., Бутаков Н.А., Насонов Д.А., Фирулик М.Ю.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Ходорченко М.А., Бутаков Н.А., Насонов Д.А., Фирулик М.Ю. Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 1. С. 112–120. doi: 10.17586/2226-1494-2023-23-1-112-120

Аннотация

Предмет исследования. Обработка неструктурированных данных, таких как тексты на естественном языке, является одной из актуальных задач при разработке интеллектуальных продуктов. В свою очередь, тематическое моделирование как метод работы с неразмеченными и частично размеченными текстовыми данными активно используется для анализа корпусов документов и создания векторных представлений. В связи с этим особенно важно обучение качественных тематических моделей за короткое время, что возможно с помощью предложенного фреймворка. Метод. Разработанный фреймворк реализует эволюционный подход к оптимизации гиперпараметров моделей с аддитивной регуляризацией и высокими результатами по метрикам качества (когерентность, NPMI). Для уменьшения вычислительного времени представлен режим работы с суррогатными моделями, который обеспечивает ускорение вычислений до 1,8 раз без потери качества. Основные результаты. Эффективность фреймворка продемонстрирована на трех наборах данных с разными статистическими характеристиками. Получены результаты, превосходящие аналогичные решения в среднем на 20 % по когерентности и 5 % по качеству классификации для двух из трех наборов. Создана распределенная версия фреймворка для проведения экспериментальных исследований тематических моделей. Практическая значимость. Полученный фреймворк может быть использован пользователями без специальных знаний в области тематического моделирования, благодаря выстроенному пайплайну работы с данными. Результаты работы могут применяться исследователями для проведения анализа тематических моделей и расширения функционала.

Ключевые слова: AutoML фреймворк, тематическое моделирование, неструктурированные данные, аддитивная регуляризация, эволюционный подход, суррогатные модели

Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда, проект № 20-11-20270.

Список литературы

Khanthaapha P., Pipanmaekaporn L., Kamonsantiroj S. Topic-based user profile model for POI recommendations // Proc. of the 2^nd International Conference on Intelligent Systems, Metaheuristics Swarm Intelligence. 2018. P. 143–147. https://doi.org/10.1145/3206185.3206203
Peña F.J., O'Reilly-Morgan D., Tragos E.Z., Hurley N., Duriakova E., Smyth B., Lawlor A. Combining rating and review data by initializing latent factor models with topic models for Top-N recommendation // Proc. of the 14^th ACM Conference on Recommender Systems. 2020. P. 438–443. https://doi.org/10.1145/3383313.3412207
Sokhin T., Butakov N. Semi-automatic sentiment analysis based on topic modeling // Procedia Computer Science. 2018. V. 136. P. 284–292. https://doi.org/10.1016/j.procs.2018.08.286
Nevezhin E., Butakov N., Khodorchenko M., Petrov M., Nasonov D. Topic-driven ensemble for online advertising generation // Proc. of the 28^th International Conference on Computational Linguistics. 2020. P. 2273–2283. https://doi.org/10.18653/v1/2020.coling-main.206
Zamiralov A., Khodorchenko M., Nasonov D. Detection of housing and utility problems in districts through social media texts // Procedia Computer Science. 2020. V. 178. P. 213–223. https://doi.org/10.1016/j.procs.2020.11.023
Shi T., Kang K., Choo J., Reddy C.K. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations // Proc. of the World Wide Web Conference (WWW 2018). 2018. P. 1105–1114. https://doi.org/10.1145/3178876.3186009
Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22^nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR '99). 1999. P. 50–57. https://doi.org/10.1145/312624.312649
Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. V. 3. P. 993–1022.
Vorontsov K., Potapenko A., Plavin A. Additive regularization of topic models for topic selection and sparse factorization // Lecture Notes in Computer Science. 2015. V. 9047. P. 193–202. https://doi.org/10.1007/978-3-319-17091-6_14
Card D., Tan C., Smith N.A. Neural models for documents with metadata // Proc. of the 56^th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2018. P. 2031–2040. https://doi.org/10.18653/v1/p18-1189
Cao Z., Li S., Liu Y., Li W., Ji H. A novel neural topic model and its supervised extension // Proceedings of the AAAI Conference on Artificial Intelligence. 2015. V. 29. N 1. P. 2210–2216. https://doi.org/10.1609/aaai.v29i1.9499
Bianchi F., Terragni S., Hovy D. Pre-training is a hot topic: Contextualized document embeddings improve topic coherence // Proc. of the 59^th Annual Meeting of the Association for Computational Linguistics and the 11^th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). 2021. P. 759–766. https://doi.org/10.18653/v1/2021.acl-short.96
Ye J., Jing X., Li J. Sentiment Analysis Using Modified LDA // Lecture Notes in Electrical Engineering. 2018. V. 473. P. 205–212. https://doi.org/10.1007/978-981-10-7521-6_25
Bodrunova S., Koltsov S., Koltsova O., Nikolenko S., Shimorina A. Interval semi-supervised LDA: Classifying needles in a haystack // Lecture Notes in Computer Science. 2013. V. 8265. P. 265–274. https://doi.org/10.1007/978-3-642-45114-0_21
Řehůřek R., Sojka P. Software framework for topic modelling with large corpora // Proc. of the LREC 2010 Workshop on New Challenges for NLP. 2010. P. 45–50.
Terragni S., Fersini E., Galuzzi B.G., Tropeano P., Candelieri A. OCTIS: Comparing and optimizing topic models is simple! // Proc. of the 16^th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations. 2021. P. 263–270. https://doi.org/10.18653/v1/2021.eacl-demos.31
Khodorchenko M., Butakov N. Developing an approach for lifestyle identification based on explicit and implicit features from social media // Procedia Computer Science. 2018. V. 136. P. 236–245. https://doi.org/10.1016/j.procs.2018.08.262
Vorontsov K., Frei O., Apishev M., Romov P., Dudarenko M. BigARTM: Open source library for regularized multimodal topic modeling of large collections // Communications in Computer and Information Science. 2015. V. 542. P. 370–381. https://doi.org/10.1007/978-3-319-26123-2_36
Khodorchenko M., Teryoshkin S., Sokhin T., Butakov N. Optimization of learning strategies for ARTM-based topic models // Lecture Notes in Computer Science. 2020. V. 12344. P. 284–296. https://doi.org/10.1007/978-3-030-61705-9_24
Khodorchenko M., Butakov N., Sokhin T., Teryoshkin S. Surrogate-based optimization of learning strategies for additively regularized topic models // Logic Journal of the IGPL. 2022. https://doi.org/10.1093/jigpal/jzac019
Röder M., Both A., Hinneburg A. Exploring the space of topic coherence measures // Proc. of the Eighth ACM International Conference on Web Search and Data Mining (WSDM’15). 2015. P. 399–408. https://doi.org/10.1145/2684822.2685324
Newman D., Noh Y., Talley E., Karimi S., Baldwin T. Evaluating topic models for digital libraries // Proc. of the 10^th Annual Joint Conference on Digital Libraries (JCDL’10). 2010. P. 215–224. https://doi.org/10.1145/1816123.1816156

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License