Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2018-18-6-1016-1022
УДК 004.02; 004.85
АЛГОРИТМ ГРАДИЕНТНОГО БУСТИНГА ДЕРЕВЬЕВ РЕШЕНИЙ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Алгоритм градиентного бустинга деревьев решений в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 6. С. 1016–1022. doi: 10.17586/2226-1494-2018-18-6-1016-1022
Аннотация
Предмет исследования. Предложен подход к идентификации версий программного обеспечения на основе алгоритма градиентного бустинга деревьев решений. Предложено применять алгоритм CatBoost, разработанный компанией Яндекс, для решения задачи идентификации программного обеспечения операционных систем Linuxс целью уменьшения числа уязвимостей системы, возникающих при установке несанкционированного программного обеспечения пользователями автоматизированных систем.Рассмотрен подход к формированию сигнатур программ и дальнейшему обучению модели классификатора Cat Boost Classifier.Поставлена задача последующего распознавания идентифицируемых программ, ранее не задействованных в процессе обучения модели.Метод. Для реализации алгоритма градиентного бустинга деревьев решений использовано свободное программное обеспечение CatBoost. На его основе создана мультиклассификационная модель CatBoostClassifier. Применение этой модели позволяет идентифицировать elf-файлы тестовой выборки. Основные результаты. Выбраны параметры обучения модели классификации. Проведен эксперимент по идентификации исполняемых файлов с использованием десяти различных признаков формирования сигнатур программ.Полученные результаты сравниваются с результатами ранее разработанного авторами метода идентификации, основанного на применении статистического критерия однородности хи-квадрат при уровне значимости 0,01. Практическая значимость. Результаты работы могут быть рекомендованы специалистам по информационной безопасности для проведения аудита электронных носителей информации. Разработанный подход позволяет выявить нарушения установленной политики безопасности при обработке конфиденциальной информации.
Ключевые слова: машинное обучение, градиентный бустинг деревьев решений, CatBoost, идентификация исполняемых файлов, elf-файлы, информационная безопасность
Благодарности. Работа выполнена по теме № 0073-2018-0008
Список литературы
Благодарности. Работа выполнена по теме № 0073-2018-0008
Список литературы
-
Pektas A., Acarman T. Classification of malware families based on runtime behaviors // Journal of Information Security and Applications. 2017. V. 37. P. 91–100. doi: 10.1016/j.jisa.2017.10.005
-
Nguyen M.H., Nguyen D.L., Nguyen X.M., Quan T.T. Auto-detection of sophisticated malware using lazy-binding control flow graph and deep learning // Computers & Security. 2018. V. 76. P. 128–155. doi: 10.1016/j.cose.2018.02.006
-
Chiba Z., Abghour N., Moussaid K., El Omri A., Rida M. A novel architecture combined with optimal parameters for back propagation neural networks applied to anomaly network
intrusion detection // Computers & Security. 2018. V. 75. P. 36–58. doi: 10.1016/j.cose.2018.01.023 -
Горбунов И.В. Особенности использования нечеткого классификатора и алгоритмов машинного обучения для аутентификации по клавиатурному почерку // Электронные средства и системы управления. 2013. № 2. С. 13–18.
-
Gori M. Machine Learning: A Constraint-Based Approach. Morgan Kaufmann, 2017. 580 p.
-
Кривцова И.Е., Салахутдинова К.И., Юрин И.В. Метод идентификации исполняемых файлов по их сигнатурам // Вестник Государственного университета морского и
речного флота имени адмирала С.О. Макарова. 2016. № 1(35). С. 215–224. -
Krivtsova I.E., Lebedev I.S., Salakhutdinova K.I. Identificationof executable files on the basis of statistical criteria // Proc. 20th Conference of Open Innovations Association. St.Petersburg,2017.P. 202–208. doi: 10.23919/FRUCT.2017.8071312
-
Антонов А.Е., Федулов А.С. Идентификация типа файла на основе структурного анализа // Прикладная информатика.2013. № 2(44). С. 68–77.
-
Казарин О.В. Теория и практика защиты программ. М.: МГУЛ, 2004. 450 с.
-
Кафтанников И.Л., Парасич А.В. Особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия: Компьютерные технологии, управление, радиоэлектроника. 2015. № 3(15). С. 26–32.
-
Freund, Y., Schapire R. Experiments with a new boosting algorithm // Proc. 13th Int. Conf. on Machine Learning. Bari, 1996. P. 148–156.
-
Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений // Вестник ЮУрГУ.2011. № 37(254). С. 82–89.
-
Cat Boost Git Hub [Электронный ресурс]. Режим доступа: https://github.com/catboost, свободный. Яз. англ. (дата обращения 29.04.2018).
-
Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Подход к выбору информативного признака в задаче идентификациипрограммного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 278–285. doi: 10.17586/2226-1494-2018-18-2-278-285
-
Druzhinin N.K., Salakhutdinova K.I. Identification of executablefile by dint of individual feature // Proc. Int. Conf. on Information Security and Protection of Information Technology, ISPIT-2015. St. Petersburg, Russia, 2015. P. 45–47.