doi: 10.17586/2226-1494-2023-23-1-112-120

УДК 004.912

Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией

Ходорченко М.А., Бутаков Н.А., Насонов Д.А., Фирулик М.Ю.

Язык статьи - русский

Ссылка для цитирования:
Ходорченко М.А., Бутаков Н.А., Насонов Д.А., Фирулик М.Ю. Программный фреймворк для оптимизации гиперпараметров тематических моделей с аддитивной регуляризацией // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 1. С. 112–120. doi: 10.17586/2226-1494-2023-23-1-112-120

Предмет исследования. Обработка неструктурированных данных, таких как тексты на естественном языке, является одной из актуальных задач при разработке интеллектуальных продуктов. В свою очередь, тематическое моделирование как метод работы с неразмеченными и частично размеченными текстовыми данными активно используется для анализа корпусов документов и создания векторных представлений. В связи с этим особенно важно обучение качественных тематических моделей за короткое время, что возможно с помощью предложенного фреймворка. Метод. Разработанный фреймворк реализует эволюционный подход к оптимизации гиперпараметров моделей с аддитивной регуляризацией и высокими результатами по метрикам качества (когерентность, NPMI). Для уменьшения вычислительного времени представлен режим работы с суррогатными моделями, который обеспечивает ускорение вычислений до 1,8 раз без потери качества. Основные результаты. Эффективность фреймворка продемонстрирована на трех наборах данных с разными статистическими характеристиками. Получены результаты, превосходящие аналогичные решения в среднем на 20 % по когерентности и 5 % по качеству классификации для двух из трех наборов. Создана распределенная версия фреймворка для проведения экспериментальных исследований тематических моделей. Практическая значимостьПолученный фреймворк может быть использован пользователями без специальных знаний в области тематического моделирования, благодаря выстроенному пайплайну работы с данными. Результаты работы могут применяться исследователями для проведения анализа тематических моделей и расширения функционала.

Ключевые слова: AutoML фреймворк, тематическое моделирование, неструктурированные данные, аддитивная регуляризация, эволюционный подход, суррогатные модели

Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда, проект № 20-11-20270.

