Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2021-21-5-702-708
УДК 004.852
Метод отбора мета-признаков на основе фреймворка Auto-sklearn
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Кулин Н.И., Муравьёв С.Б. Метод отбора мета-признаков на основе фреймворка Auto-sklearn // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 702–708 (на англ. яз.). doi: 10.17586/2226-1494-2021-21-5-702-708
Аннотация
Предмет исследования. За последние годы задачу выбора и настройки алгоритмов машинного обучения все чаще решают с помощью автоматизированных фреймворков. Это мотивировано тем, что в работе с большим объемом данных классические методы не эффективны с точки зрения времени и качества. В работе рассмотрен фреймворк Auto-sklearn как одно из лучших решений для автоматизированного выбора и настройки алгоритмов машинного обучения. Исследована проблема решения Auto-sklearn 1.0, основанного на байесовской оптимизации и мета-обучении. Представлено решение данной проблемы. Метод. Предложен новый метод работы, основанный на оптимизации мета-базы. Сущность метода состоит в использовании алгоритма кластеризации BIRCH, для разделения наборов данных по различным группам. Критериями отбора являются мера силуэта и минимальное количество начальных конфигураций байесовской оптимизации. На следующем шаге использована модель случайного леса, которая обучена на наборе мета-признаков и полученных метках. При этом отобраны важные мета-признаки из всего набора. В итоге получен оптимальный набор мета-признаков, который использован для нахождения начальных конфигураций байесовской оптимизации. Основные результаты. Рассмотренный метод позволяет значительно ускорить поиск лучшего алгоритма машинного обучения для задач классификации. Проведены эксперименты с наборами данных из OpenM, выполнено сравнение Auto-sklearn 1.0, 2.0 и новой версии, которая использует предлагаемый метод. По результатам эксперимента и статистических тестов на T-критерий Уилкоксона новый метод превосходит по времени оригинальные версии и по качеству Auto-sklearn 1.0 и составляет конкуренцию с Auto-sklearn 2.0. Практическая значимость. В результате метод позволяет уменьшить время нахождения лучшего решения для задач машинного обучения. Оптимизация таких фреймворков целесообразна с точки зрения экономии времени и других ресурсов особенно в работе с большим объемом данных.
Ключевые слова: AutoML, автоматическое машинное обучение, машинное обучение, мета-обучение, классификация
Список литературы
Список литературы
1. Nagarajah T., Guhanathan P. A Review on automated machine learning (AutoML) systems // Proc. IEEE 5th International Conference for Convergence in Technology (I2CT). 2019. P. 9033810. https://doi.org/10.1109/I2CT45611.2019.9033810
2. Ge P. Analysis on approaches and structures of automated machine learning frameworks // Proc. 2020 International Conference on Communications, Information System and Computer Engineering (CISCE). 2020. P. 474–477. https://doi.org/10.1109/CISCE50729.2020.00106
3. Chauhan K., Jani S., Thakkar D., Dave R., Bhatia J., Tanwar S., Obaidat M.S. Automated machine learning: The new wave of machine learning // Proc. 2nd International Conference on Innovative Mechanisms for Industry Applications (ICIMIA). 2020. P. 205–212. https://doi.org/10.1109/ICIMIA48430.2020.9074859
4. Ebadi A., Gauthier Y., Tremblay S., Paul P. How can automated machine learning help business data science teams? // Proc. 18th IEEE International Conference on Machine Learning and Applications (ICMLA). 2019. P. 1186–1191. https://doi.org/10.1109/ICMLA.2019.00196
5. Snoek J., Larochelle H., Adams R.P. Practical bayesian optimization of machine learning algorithms // Advances in Neural Information Processing Systems. 2012. V. 4. P. 2951–2959.
6. Jiang M., Chen Y. Research on bayesian optimization algorithm selection strategy // Proc. IEEE International Conference on Information and Automation (ICIA). 2010. P. 2424–2427. https://doi.org/10.1109/ICINFA.2010.5512281
7. Feurer M., Hutter F. Hyperparameter optimization // Automated Machine Learning. Springer, 2019. P. 3–33. https://doi.org/10.1007/978-3-030-05318-5_1
8. Brazdil P., Giraud Carrier C., Soares C., Vilalta R. Metalearning: Applications to Data Mining. Springer Science & Business Media, 2009. XI, 176 p. https://doi.org/10.1007/978-3-540-73263-1
9. Hospedales T.M., Antoniou A., Micaelli P., Storkey A.J. Meta-learning in neural networks: A survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021. in press. https://doi.org/10.1109/TPAMI.2021.3079209
10. Abdulrhaman S.M., Brazdil P. Measures for combining accuracy and time for meta-learning // CEUR Workshop Proceedings. 2014. V. 1201. P. 49–50.
11. Feurer M., Springenberg J., Hutter F. Initializing bayesian hyperparameter optimization via meta-learning // Proc. 29th AAAI Conference on Artificial Intelligence. 2015. P. 1128–1135.
12. Feurer M., Klein A., Eggensperger K., Springenberg J.T., Blum M., Hutter F. Auto-sklearn: efficient and robust automated machine learning // Automated Machine Learning. Springer, 2019. P. 113–134. https://doi.org/10.1007/978-3-030-05318-5_6
13. Feurer M., Eggensperger K., Falkner S., Lindauer M., Hutter F. Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning // arXiv.org. arXiv:2007.04074. 2020.
14. Alcobaça E., Siqueira F., Rivolli A., Garcia L.P.F., Oliva J.T., de Carvalho A.C.P.L.F. MFE: Towards reproducible meta-feature extraction // Journal of Machine Learning Research. 2020. V. 21. P. 1–5.
15. Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM Sigmod Record. 1996. V. 25. N 2. P. 103–114. https://doi.org/10.1145/235968.233324