Метод отбора мета-признаков на основе фреймворка Auto-sklearn

Кулин Никита Игоревич, Муравьёв Сергей Борисович

doi:10.17586/2226-1494-2021-21-5-702-708

2021 , ТОМ 21, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2021-21-5-702-708

УДК 004.852

Метод отбора мета-признаков на основе фреймворка Auto-sklearn

Кулин Н.И., Муравьёв С.Б.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Кулин Н.И., Муравьёв С.Б. Метод отбора мета-признаков на основе фреймворка Auto-sklearn // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 702–708 (на англ. яз.). doi: 10.17586/2226-1494-2021-21-5-702-708

Аннотация

Предмет исследования. За последние годы задачу выбора и настройки алгоритмов машинного обучения все чаще решают с помощью автоматизированных фреймворков. Это мотивировано тем, что в работе с большим объемом данных классические методы не эффективны с точки зрения времени и качества. В работе рассмотрен фреймворк Auto-sklearn как одно из лучших решений для автоматизированного выбора и настройки алгоритмов машинного обучения. Исследована проблема решения Auto-sklearn 1.0, основанного на байесовской оптимизации и мета-обучении. Представлено решение данной проблемы. Метод. Предложен новый метод работы, основанный на оптимизации мета-базы. Сущность метода состоит в использовании алгоритма кластеризации BIRCH, для разделения наборов данных по различным группам. Критериями отбора являются мера силуэта и минимальное количество начальных конфигураций байесовской оптимизации. На следующем шаге использована модель случайного леса, которая обучена на наборе мета-признаков и полученных метках. При этом отобраны важные мета-признаки из всего набора. В итоге получен оптимальный набор мета-признаков, который использован для нахождения начальных конфигураций байесовской оптимизации. Основные результаты. Рассмотренный метод позволяет значительно ускорить поиск лучшего алгоритма машинного обучения для задач классификации. Проведены эксперименты с наборами данных из OpenM, выполнено сравнение Auto-sklearn 1.0, 2.0 и новой версии, которая использует предлагаемый метод. По результатам эксперимента и статистических тестов на T-критерий Уилкоксона новый метод превосходит по времени оригинальные версии и по качеству Auto-sklearn 1.0 и составляет конкуренцию с Auto-sklearn 2.0. Практическая значимость. В результате метод позволяет уменьшить время нахождения лучшего решения для задач машинного обучения. Оптимизация таких фреймворков целесообразна с точки зрения экономии времени и других ресурсов особенно в работе с большим объемом данных.

Ключевые слова: AutoML, автоматическое машинное обучение, машинное обучение, мета-обучение, классификация

Список литературы

1. Nagarajah T., Guhanathan P. A Review on automated machine learning (AutoML) systems // Proc. IEEE 5th International Conference for Convergence in Technology (I2CT). 2019. P. 9033810. https://doi.org/10.1109/I2CT45611.2019.9033810

2. Ge P. Analysis on approaches and structures of automated machine learning frameworks // Proc. 2020 International Conference on Communications, Information System and Computer Engineering (CISCE). 2020. P. 474–477. https://doi.org/10.1109/CISCE50729.2020.00106

3. Chauhan K., Jani S., Thakkar D., Dave R., Bhatia J., Tanwar S., Obaidat M.S. Automated machine learning: The new wave of machine learning // Proc. 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA). 2020. P. 205–212. https://doi.org/10.1109/ICIMIA48430.2020.9074859

4. Ebadi A., Gauthier Y., Tremblay S., Paul P. How can automated machine learning help business data science teams? // Proc. 18th IEEE International Conference on Machine Learning and Applications (ICMLA). 2019. P. 1186–1191. https://doi.org/10.1109/ICMLA.2019.00196

5. Snoek J., Larochelle H., Adams R.P. Practical bayesian optimization of machine learning algorithms // Advances in Neural Information Processing Systems. 2012. V. 4. P. 2951–2959.

6. Jiang M., Chen Y. Research on bayesian optimization algorithm selection strategy // Proc. IEEE International Conference on Information and Automation (ICIA). 2010. P. 2424–2427. https://doi.org/10.1109/ICINFA.2010.5512281

7. Feurer M., Hutter F. Hyperparameter optimization // Automated Machine Learning. Springer, 2019. P. 3–33. https://doi.org/10.1007/978-3-030-05318-5_1

8. Brazdil P., Giraud Carrier C., Soares C., Vilalta R. Metalearning: Applications to Data Mining. Springer Science & Business Media, 2009. XI, 176 p. https://doi.org/10.1007/978-3-540-73263-1

9. Hospedales T.M., Antoniou A., Micaelli P., Storkey A.J. Meta-learning in neural networks: A survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021. in press. https://doi.org/10.1109/TPAMI.2021.3079209

10. Abdulrhaman S.M., Brazdil P. Measures for combining accuracy and time for meta-learning // CEUR Workshop Proceedings. 2014. V. 1201. P. 49–50.

11. Feurer M., Springenberg J., Hutter F. Initializing bayesian hyperparameter optimization via meta-learning // Proc. 29th AAAI Conference on Artificial Intelligence. 2015. P. 1128–1135.

12. Feurer M., Klein A., Eggensperger K., Springenberg J.T., Blum M., Hutter F. Auto-sklearn: efficient and robust automated machine learning // Automated Machine Learning. Springer, 2019. P. 113–134. https://doi.org/10.1007/978-3-030-05318-5_6

13. Feurer M., Eggensperger K., Falkner S., Lindauer M., Hutter F. Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning // arXiv.org. arXiv:2007.04074. 2020.

14. Alcobaça E., Siqueira F., Rivolli A., Garcia L.P.F., Oliva J.T., de Carvalho A.C.P.L.F. MFE: Towards reproducible meta-feature extraction // Journal of Machine Learning Research. 2020. V. 21. P. 1–5.

15. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM Sigmod Record. 1996. V. 25. N 2. P. 103–114. https://doi.org/10.1145/235968.233324

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License