doi: 10.17586/2226-1494-2018-18-6-1016-1022


УДК 004.02; 004.85

АЛГОРИТМ ГРАДИЕНТНОГО БУСТИНГА ДЕРЕВЬЕВ РЕШЕНИЙ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ

Салахутдинова К.И., Лебедев И.С., Кривцова И.Е.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Алгоритм градиентного бустинга деревьев решений в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 6. С. 1016–1022. doi: 10.17586/2226-1494-2018-18-6-1016-1022


Аннотация
Предмет исследования. Предложен подход к идентификации версий программного обеспечения на основе алгоритма градиентного бустинга деревьев решений. Предложено применять алгоритм CatBoost, разработанный компанией Яндекс, для решения задачи идентификации программного обеспечения операционных систем Linuxс целью уменьшения числа уязвимостей системы, возникающих при установке несанкционированного программного обеспечения пользователями автоматизированных систем.Рассмотрен подход к формированию сигнатур программ и дальнейшему обучению модели классификатора Cat Boost Classifier.Поставлена задача последующего распознавания идентифицируемых программ, ранее не задействованных в процессе обучения модели.Метод. Для реализации алгоритма градиентного бустинга деревьев решений использовано свободное программное обеспечение CatBoost. На его основе создана мультиклассификационная модель CatBoostClassifier. Применение этой модели позволяет идентифицировать elf-файлы тестовой выборки. Основные результаты. Выбраны параметры обучения модели классификации. Проведен эксперимент по идентификации исполняемых файлов с использованием десяти различных признаков формирования сигнатур программ.Полученные результаты сравниваются с результатами ранее разработанного авторами метода идентификации, основанного на применении статистического критерия однородности хи-квадрат при уровне значимости 0,01. Практическая значимость. Результаты работы могут быть рекомендованы специалистам по информационной безопасности для проведения аудита электронных носителей информации. Разработанный подход позволяет выявить нарушения установленной политики безопасности при обработке конфиденциальной информации.

Ключевые слова: машинное обучение, градиентный бустинг деревьев решений, CatBoost, идентификация исполняемых файлов, elf-файлы, информационная безопасность

Благодарности. Работа выполнена по теме № 0073-2018-0008

Список литературы
  1. Pektas A., Acarman T. Classification of malware families based on runtime behaviors // Journal of Information Security and Applications. 2017. V. 37. P. 91–100. doi: 10.1016/j.jisa.2017.10.005
  2. Nguyen M.H., Nguyen D.L., Nguyen X.M., Quan T.T. Auto-detection of sophisticated malware using lazy-binding control flow graph and deep learning // Computers & Security. 2018. V. 76. P. 128–155. doi: 10.1016/j.cose.2018.02.006
  3. Chiba Z., Abghour N., Moussaid K., El Omri A., Rida M. A novel architecture combined with optimal parameters for back propagation neural networks applied to anomaly network
    intrusion detection // Computers & Security. 2018. V. 75. P. 36–58. doi: 10.1016/j.cose.2018.01.023
  4. Горбунов И.В. Особенности использования нечеткого классификатора и алгоритмов машинного обучения для аутентификации по клавиатурному почерку // Электронные средства и системы управления. 2013. № 2. С. 13–18.
  5. Gori M. Machine Learning: A Constraint-Based Approach. Morgan Kaufmann, 2017. 580 p.
  6. Кривцова И.Е., Салахутдинова К.И., Юрин И.В. Метод идентификации исполняемых файлов по их сигнатурам // Вестник Государственного университета морского и
    речного флота имени адмирала С.О. Макарова. 2016. № 1(35). С. 215–224.
  7. Krivtsova I.E., Lebedev I.S., Salakhutdinova K.I. Identificationof executable files on the basis of statistical criteria // Proc. 20th Conference of Open Innovations Association. St.Petersburg,2017.P. 202–208. doi: 10.23919/FRUCT.2017.8071312
  8. Антонов А.Е., Федулов А.С. Идентификация типа файла на основе структурного анализа // Прикладная информатика.2013. № 2(44). С. 68–77.
  9. Казарин О.В. Теория и практика защиты программ. М.: МГУЛ, 2004. 450 с.
  10. Кафтанников И.Л., Парасич А.В. Особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия: Компьютерные технологии, управление, радиоэлектроника. 2015. № 3(15). С. 26–32.
  11. Freund, Y., Schapire R. Experiments with a new boosting algorithm // Proc. 13th Int. Conf. on Machine Learning. Bari, 1996. P. 148–156.
  12. Дружков П.Н., Золотых Н.Ю., Половинкин А.Н. Реализация параллельного алгоритма предсказания в методе градиентного бустинга деревьев решений // Вестник ЮУрГУ.2011. № 37(254). С. 82–89.
  13. Cat Boost Git Hub [Электронный ресурс]. Режим доступа: https://github.com/catboost, свободный. Яз. англ. (дата обращения 29.04.2018).
  14. Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Подход к выбору информативного признака в задаче идентификациипрограммного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 278–285. doi: 10.17586/2226-1494-2018-18-2-278-285
  15. Druzhinin N.K., Salakhutdinova K.I. Identification of executablefile by dint of individual feature // Proc. Int. Conf. on Information Security and Protection of Information Technology, ISPIT-2015. St. Petersburg, Russia, 2015. P. 45–47.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика