doi: 10.17586/2226-1494-2021-21-5-702-708


УДК 004.852

Метод отбора мета-признаков на основе фреймворка Auto-sklearn

Кулин Н.И., Муравьёв С.Б.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Кулин Н.И., Муравьёв С.Б. Метод отбора мета-признаков на основе фреймворка Auto-sklearn // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 702–708 (на англ. яз.). doi: 10.17586/2226-1494-2021-21-5-702-708


Аннотация
Предмет исследования. За последние годы задачу выбора и настройки алгоритмов машинного обучения все чаще решают с помощью автоматизированных фреймворков. Это мотивировано тем, что в работе с большим объемом данных классические методы не эффективны с точки зрения времени и качества. В работе рассмотрен фреймворк Auto-sklearn как одно из лучших решений для автоматизированного выбора и настройки алгоритмов машинного обучения. Исследована проблема решения Auto-sklearn 1.0, основанного на байесовской оптимизации и мета-обучении. Представлено решение данной проблемы. Метод. Предложен новый метод работы, основанный на оптимизации мета-базы. Сущность метода состоит в использовании алгоритма кластеризации BIRCH, для разделения наборов данных по различным группам. Критериями отбора являются мера силуэта и минимальное количество начальных конфигураций байесовской оптимизации. На следующем шаге использована модель случайного леса, которая обучена на наборе мета-признаков и полученных метках. При этом отобраны важные мета-признаки из всего набора. В итоге получен оптимальный набор мета-признаков, который использован для нахождения начальных конфигураций байесовской оптимизации. Основные результаты. Рассмотренный метод позволяет значительно ускорить поиск лучшего алгоритма машинного обучения для задач классификации. Проведены эксперименты с наборами данных из OpenM, выполнено сравнение Auto-sklearn 1.0, 2.0 и новой версии, которая использует предлагаемый метод. По результатам эксперимента и статистических тестов на T-критерий Уилкоксона новый метод превосходит по времени оригинальные версии и по качеству Auto-sklearn 1.0 и составляет конкуренцию с Auto-sklearn 2.0. Практическая значимость. В результате метод позволяет уменьшить время нахождения лучшего решения для задач машинного обучения. Оптимизация таких фреймворков целесообразна с точки зрения экономии времени и других ресурсов особенно в работе с большим объемом данных.

Ключевые слова: AutoML, автоматическое машинное обучение, машинное обучение, мета-обучение, классификация

Список литературы
1. Nagarajah T., Guhanathan P. A Review on automated machine learning (AutoML) systems // Proc. IEEE 5th International Conference for Convergence in Technology (I2CT). 2019. P. 9033810. https://doi.org/10.1109/I2CT45611.2019.9033810
2. Ge P. Analysis on approaches and structures of automated machine learning frameworks // Proc. 2020 International Conference on Communications, Information System and Computer Engineering (CISCE). 2020. P. 474–477. https://doi.org/10.1109/CISCE50729.2020.00106
3. Chauhan K., Jani S., Thakkar D., Dave R., Bhatia J., Tanwar S., Obaidat M.S. Automated machine learning: The new wave of machine learning // Proc. 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA). 2020. P. 205–212. https://doi.org/10.1109/ICIMIA48430.2020.9074859
4. Ebadi A., Gauthier Y., Tremblay S., Paul P. How can automated machine learning help business data science teams? // Proc. 18th IEEE International Conference on Machine Learning and Applications (ICMLA). 2019. P. 1186–1191. https://doi.org/10.1109/ICMLA.2019.00196
5. Snoek J., Larochelle H., Adams R.P. Practical bayesian optimization of machine learning algorithms // Advances in Neural Information Processing Systems. 2012. V. 4. P. 2951–2959.
6. Jiang M., Chen Y. Research on bayesian optimization algorithm selection strategy // Proc. IEEE International Conference on Information and Automation (ICIA). 2010. P. 2424–2427. https://doi.org/10.1109/ICINFA.2010.5512281
7. Feurer M., Hutter F. Hyperparameter optimization // Automated Machine Learning. Springer, 2019. P. 3–33. https://doi.org/10.1007/978-3-030-05318-5_1
8. Brazdil P., Giraud Carrier C., Soares C., Vilalta R. Metalearning: Applications to Data Mining. Springer Science & Business Media, 2009. XI, 176 p. https://doi.org/10.1007/978-3-540-73263-1
9. Hospedales T.M., Antoniou A., Micaelli P., Storkey A.J. Meta-learning in neural networks: A survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021. in press. https://doi.org/10.1109/TPAMI.2021.3079209
10. Abdulrhaman S.M., Brazdil P. Measures for combining accuracy and time for meta-learning // CEUR Workshop Proceedings. 2014. V. 1201. P. 49–50.
11. Feurer M., Springenberg J., Hutter F. Initializing bayesian hyperparameter optimization via meta-learning // Proc. 29th AAAI Conference on Artificial Intelligence. 2015. P. 1128–1135.
12. Feurer M., Klein A., Eggensperger K., Springenberg J.T., Blum M., Hutter F. Auto-sklearn: efficient and robust automated machine learning // Automated Machine Learning. Springer, 2019. P. 113–134. https://doi.org/10.1007/978-3-030-05318-5_6
13. Feurer M., Eggensperger K., Falkner S., Lindauer M., Hutter F. Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning // arXiv.org. arXiv:2007.04074. 2020.
14. Alcobaça E., Siqueira F., Rivolli A., Garcia L.P.F., Oliva J.T., de Carvalho A.C.P.L.F. MFE: Towards reproducible meta-feature extraction // Journal of Machine Learning Research. 2020. V. 21. P. 1–5.
15. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM Sigmod Record. 1996. V. 25. N 2. P. 103–114. https://doi.org/10.1145/235968.233324


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика