<div>
	МЕТОД ВЫБОРА ГИПЕРПАРАМЕТРОВ В ЗАДАЧАХ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ СТОХАСТИЧЕСКИХ ОБЪЕКТОВ</div>
<div>
	<div>
		 </div>
</div>

Тимофеев Андрей Владимирович

doi:10.17586/2226-1494-2020-20-5-667-676

2020 , ТОМ 20, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2020-20-5-667-676

УДК 004.852

МЕТОД ВЫБОРА ГИПЕРПАРАМЕТРОВ В ЗАДАЧАХ МАШИННОГО ОБУЧЕНИЯ ДЛЯ КЛАССИФИКАЦИИ СТОХАСТИЧЕСКИХ ОБЪЕКТОВ

Тимофеев А.В.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Тимофеев А.В. Метод выбора гиперпараметров в задачах машинного обучения для классификации стохастических объектов // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 5. С. 667–676. doi: 10.17586/2226-1494-2020-20-5-667-676

Аннотация

Предмет исследования. Предложен простой и эффективный метод выбора гиперпараметров при решении классификационной проблемы методами машинного обучения. Метод работает с любыми гиперпараметрами вещественного типа, значения которых лежат внутри известного вещественного параметрического компакта. Метод. Внутри параметрического компакта генерируется случайная выборка (пробная сеть) сравнительно небольшого объема, для каждого элемента которой вычисляется эффективность выбора гиперпараметров согласно специальному критерию. Эффективность оценивается величиной некоторого вещественного скаляра, который принципиально не зависит от порога классификации. Таким образом, формируется выборка регрессии, регрессорами которой являются случайные наборы гиперпараметров из параметрического компакта, а значениями регрессии – соответствующие этим наборам значения показателя эффективности классификации. На основании полученной выборки строится непараметрическая аппроксимация этой регрессии. На следующем этапе, используя метод оптимизации Нелдера–Мида, определяется минимальное значение построенной аппроксимации для регрессионной функции на параметрическом компакте. Аргументы минимального значения регрессии являются приближенным решением поставленной задачи. Основные результаты. В отличие от традиционных, предложенный подход основан на непараметрической аппроксимации функции регрессии: набор гиперпараметров — значение показателя эффективности классификации. Особое внимание уделено выбору критерия качества классификации. За счет использования аппроксимации упомянутого типа имеется возможность исследования поведения показателя эффективности вне значений пробной сетки. Как следует из проведенных экспериментов на различных базах данных, предложенный подход обеспечивает существенный прирост эффективности выбора гиперпараметров по сравнению с базовыми вариантами и одновременно сохраняет практически приемлемую работоспособность даже для малых значений мощности пробного множества. Новизна подхода заключена в одновременном использовании: непараметрической аппроксимации для функции регрессии, которая связывает значения гиперпараметров с соответствующими им величинами критерия качества; выборе критерия качества классификации и метода поиска глобального экстремума этой функции. Практическая значимость. Предложенный алгоритм выбора гиперпараметров может быть использован в любых системах, основанных на принципе машинного обучения. Например, в системах управления технологическими процессами, биометрических системах и системах машинного зрения.

Ключевые слова: выбор гиперпараметров, машинное обучение, Multiclass Gradient Boosting Classiﬁer, Multiclass SVM-classiﬁer, SV-регрессия, Gradient Boosting Regression, метод Нелдера–Мида

Список литературы

1. Montgomery D.C. Design and Analysis of Experiments. 8th ed. John Wiley & Sons, 2013. 752 p.

2. Bergstra J., Bengio Y. Random search for hyper-parameter optimization // Journal of Machine Learning Research. 2012. V. 13. P. 281–305.

3. Zeng X., Luo G. Progressive sampling-based Bayesian optimization for efficient and automatic machine learning model selection // Health Information Science and Systems. 2017. V. 5. P. 2. doi: 10.1007/s13755-017-0023-z

4. Zhang Y., Bahadori M.T., Su H., Sun J. FLASH: Fast bayesian optimization for data analytic pipelines // Proc. 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). 2016. P. 2065–2074. doi: 10.1145/2939672.2939829

5. Rasmussen C., Williams C. Gaussian Processes for Machine Learning. The MIT Press, 2006. 248 p.

6. Maclaurin D., Duvenaud D., Adams R. Gradient-based hyperparameter optimization through reversible learning // ICML'15: Proc. of the 32nd International Conference on International Conference on Machine Learning. 2015. P. 2113–2122.

7. Powers D.M. Evaluation: from precision, recall and F-measure to ROC, Informedness, markedness & correlation // Journal of Machine Learning Technologies. 2011. V. 2. N 1. P. 37–63.

8. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006. 738 p.

9. Calders T., Jaroszewicz S. Efficient AUC optimization for classification // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2007. V. 4702. P. 42–53. doi: 10.1007/978-3-540-74976-9_8

10. Drucker H., Burges C.J.C., Kaufman L., Smola A., Vapnik V. Support vector regression machines // Advances in Neural Information Processing Systems. 1997. V. 9. P. 155–161.

11. Friedman J.H. Greedy function approximation: A gradient boosting machine // Annals of Statistics. 2001. V. 29. N 5. P. 1189–1232. doi: 10.1214/aos/1013203451

12. Nelder J.A., Mead R. A simplex method for function minimization // Computer Journal. 1965. V. 7. N 4. P. 308–313. doi: 10.1093/comjnl/7.4.308

13. Oliphant T.E. A Bayesian perspective on estimating mean, variance, and standard-deviation from data [Электронный ресурс]. URL: https://scholarsarchive.byu.edu/facpub/278 (дата обращения: 04.06.20).

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License