doi: 10.17586/2226-1494-2025-25-1-114-127


УДК 004.492.3

Хажжуз А., Авксентьева Е.Ю.
Улучшение и расширение CatBoost для точного обнаружения и классификации подтипов DoS и DDoS атак в сетевом трафике 



Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Хажжуз А., Авксентьева Е.Ю. Улучшение и расширение CatBoost для точного обнаружения и классификации подтипов DoS и DDoS атак в сетевом трафике // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 1. С. 114–127 (на англ. яз.). doi: 10.17586/2226-1494-2025-25-1-114-127


Аннотация
В постоянно меняющемся цифровом мире рост сложных киберугроз, особенно атак DoS (отказ в обслуживании) и DDoS (распределенный отказ в обслуживании), представляет собой серьезную проблему для информационной безопасности. В работе рассматривается задача классификации вредоносного и безопасного сетевого трафика с спользованием применением классификатора CatBoost — алгоритма машинного обучения, оптимизированного для категориальных данных и несбалансированных наборов данных. Использованы наборы данных CIC- IDS2017 и CSE-CIC-IDS2018, которые имитируют различные сценарии кибератак. оптимизация классификатора CatBoost для распознавания конкретных подтипов атак DoS и DDoS, включая Hulk, SlowHTTPTest, GoldenEye, Slowloris, HOIC, LOIC-UDP-HTTP, LOIT. Разработана методика работы CatBoost для подготовки данных, отбора признаков и настройки модели, нормализации выбросов, корректировки отрицательных значений и улучшения структуры наборов данных. Стратифицированная выборка обеспечила сбалансированное представление классов в обучающих, валидационных и тестовых наборах. Разработанная модель CatBoost продемонстрировала отличные результаты с общей точностью 0,999922, высокой полнотой и значениями F1-меры по всем категориям и способностью обрабатывать более 3,4 млн образцов в секунду. Эти результаты показывают, что модель является надежной и подходит для обнаружения вторжений в реальном времени. Классификация конкретных типов атак улучшает точность системы обнаружения вторжений (Intrusion Detection Systems, IDS) и позволяет целенаправленно реагировать на различные угрозы. Существенное повышение точности обнаружения решает проблему несбалансированных наборов данных и необходимость детектирования различных типов атак. CatBoost рекомендуется к использованию в передовых рамках информационной безопасности для критической инфраструктуры, облачных сервисов и корпоративных сетей для защиты от цифровых угроз. Данная работа предлагает быстрое, точное и масштабируемое решение для сетевой IDS и подчеркивает важность использования кастомизированных моделей машинного обучения в информационной безопасности. В дальнейшем предполагается изучить применение CatBoost на большем количестве наборов данных и его интеграцию с другими методами машинного обучения для повышения устойчивости и точности обнаружения.

Ключевые слова: информационная безопасность, обнаружение сетевых вторжений, атаки DoS, атаки DDoS, машинное обучение, обнаружение в реальном времени, отбор признаков, оптимизация модели

Список литературы
  1. Hajjouz A., Avksentieva E.Y. An approach to configuring CatBoost for advanced detection of DoS and DDoS attacks in network traffic // Vestnik of Astrakhan State Technical University. Series: Management, computer science and informatics. 2024.  V. 2024. N 3. P. 64–74. https://doi.org/10.24143/2072-9502-2024-3-65-74 
  2. Zhou L., Zhu Y., Zong T, Xiang Y. A feature selection-based method for DDoS attack flow classification // Future Generation Computer Systems. 2022. V. 132. P. 67–79. https://doi.org/10.1016/j.future.2022.02.006 
  3. Eliyan L.F., Di Pietro R. DoS and DDoS attacks in Software Defined Networks: A survey of existing solutions and research challenges // Future Generation Computer Systems. 2021. V. 122. P. 149–171. https://doi.org/10.1016/j.future.2021.03.011 
  4. Игнатьев Н.А., Турсунмуротов Д.Х. Цензурирование обучающих выборок с использованием регуляризации отношений связанности объектов классов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24. N 2. С. 322–329. https://doi.org/10.17586/2226-1494-2024-24-2-322-329 
  5. Alhijawi B., Almajali S., Elgala H., Salameh H.B., Ayyash M. A survey on DoS/DDoS mitigation techniques in SDNs: Classification, comparison, solutions, testing tools and datasets // Computers and Electrical Engineering. 2022. V. 99. P. 107706. https://doi.org/10.1016/j.compeleceng.2022.107706 
  6. Li Y., Liu Q. A comprehensive review study of cyber-attacks and cyber security; Emerging trends and recent developments // Energy Reports. 2021. V. 7. P. 8176–8186. https://doi.org/10.1016/j.egyr.2021.08.126 
  7. Karatas G., Demir O., Sahingoz O.K. Increasing the performance of machine learning-based IDSs on an imbalanced and up-to-date dataset // IEEE Access. 2020. V. 8. P. 32150–32162. https://doi.org/10.1109/ACCESS.2020.2973219 
  8. Kim J., Kim J., Kim H., Shim M., Choi E. CNN-based network intrusion detection against denial-of-service attacks // Electronics. 2020. V. 9. N 6. P. 916. https://doi.org/10.3390/electronics9060916 
  9. Dora V.R.S., Lakshmi V.N. Optimal feature selection with CNN-feature learning for DDoS attack detection using meta-heuristic-based LSTM // International Journal of Intelligent Robotics and Applications. 2022. V. 6 N 2. P. 323–349. https://doi.org/10.1007/s41315-022-00224-4 
  10. Abu Bakar R., Huang X., Javed M.S., Hussain S., Majeed M.F. An intelligent agent-based detection system for DDoS attacks using automatic feature extraction and selection // Sensors. 2023. V. 23. N 6. P. 3333. https://doi.org/10.3390/s23063333 
  11. Farhat S., Abdelkader M., Meddeb-Makhlouf A., Zarai F. Evaluation of DoS/DDoS Attack Detection with ML Techniques on CIC-IDS2017 Dataset // Proc. of the 9th International Conference on Information Systems Security and Privacy ICISSP. 2023. V. 1. P. 287–295. https://doi.org/10.5220/0011605700003405 
  12. Manimurugan S., Al-Mutairi S., Aborokbah M.M., Chilamkurti N., Ganesan S., Patan R. Effective attack detection in internet of medical things smart environment using a deep belief neural network // IEEE Access. 2020. V. 8. P. 77396–77404. https://doi.org/10.1109/ACCESS.2020.2986013 
  13. Rios V.D.M., Inácio P.R., Magoni D., Freire M.M. Detection and mitigation of low-rate denial-of-service attacks: A survey // IEEE Access. 2022. V. 10, P. 76648–76668. https://doi.org/10.1109/ACCESS.2022.3191430 
  14. Faria V.D.S., Gonçalves J.A., Silva C.A.M.D., Vieira G.D.B., Mascarenhas D.M. SDToW: a slowloris detecting tool for WMNs // Information, 2020. V. 11. N 12. P. 544. https://doi.org/10.3390/info11120544 
  15. Mahjabin S. Implementation of DoS and DDoS attacks on cloud servers // Periodicals of Engineering and Natural Sciences. 2018. V. 6 N 2. P. 148–158. https://doi.org/10.21533/pen.v6i2.170 
  16. Kshirsagar D., Kumar S. An ontology approach for proactive detection of HTTP flood DoS attack // International Journal of System Assurance Engineering and Management. 2023. V. 14. Suppl. 3. P. 840–847. https://doi.org/10.1007/s13198-021-01170-3 
  17. Cai Y.X., Chen S.C., Wang C.C. An Implementation of feature selection for detecting LOIC-based DDoS attack // Proc. of the International Conference on Consumer Electronics - Taiwan (ICCE-Taiwan). 2023. P. 607–608. https://doi.org/10.1109/ICCE-Taiwan58799.2023.10226733 
  18. Nayyar S., Arora S., Singh M. Recurrent neural network based intrusion detection system // Proc. of the International Conference on Communication and Signal Processing (ICCSP). 2020. P. 136–140. https://doi.org/10.1109/ICCSP48568.2020.9182099 
  19. Hajjouz A., Avksentieva E. Evaluating the effectiveness of the CatBoost classifier in distinguishing benign traffic, FTP BruteForce and SSH BruteForce traffic // Proc. of the 9th International Conference on Signal and Image Processing (ICSIP). 2024. P. 351-358. https://doi.org/10.1109/ICSIP61881.2024.10671552 
  20. Sharafaldin I., Lashkari A.H., Ghorbani A.A. Toward generating a new intrusion detection dataset and intrusion traffic characterization // Proc. of the 4th International Conference on Information Systems Security and Privacy (ICISSP). 2018. V. 1. P. 108–116. https://doi.org/10.5220/0006639801080116 
  21. Cabello-Solorzano K., Ortigosa de Araujo I., Peña M., Correia, L., Tallón-Ballesteros A.J., The impact of data normalization on the accuracy of machine learning algorithms: a comparative analysis // Lecture Notes in Networks and Systems. 2023. V. 750. P. 344–353. https://doi.org/10.1007/978-3-031-42536-3_33 
  22. Oleghe O. A predictive noise correction methodology for manufacturing process datasets // Journal of Big Data. 2020. V. 7. N 1. P. 89. https://doi.org/10.1186/s40537-020-00367-w 
  23. Umar M.A., Chen Z., Shuaib K., Liu Y. Effects of feature selection and normalization on network intrusion detection // Data Science and Management. 2025. V. 8. N 1. P. 23-39. https://doi.org/10.1016/j.dsm.2024.08.001 
  24. Chandrashekar G., Sahin F. A survey on feature selection methods // Computers & electrical engineering. 2014. V. 40. N 1. P. 16–28. https://doi.org/10.1016/j.compeleceng.2013.11.024 
  25. Palo H.K., Sahoo S., Subudhi A.K. Dimensionality reduction techniques: Principles, benefits, and limitations // Data Analytics in Bioinformatics: A Machine Learning Perspective. 2021. P. 79–107. https://doi.org/10.1002/9781119785620.ch4 
  26. Dunn J., Mingardi L., Zhuo Y.D. Comparing interpretability and explainability for feature selection // arXiv. 2021. arXiv:2105.05328. https://doi.org/10.48550/arXiv.2105.05328 
  27. Li J., Cheng K., Wang S., Morstatter F., Trevino R.P., Tang J., Liu H. Feature selection: A data perspective // ACM computing surveys. 2017. V. 50. N 6. P. 1–45. https://doi.org/10.1145/3136625 
  28. Kathiravan P., Shanmugavadivu P., Saranya R. Mitigating imbalanced data in online social networks using Stratified K-Means Sampling // Proc. of the 8th International Conference on Business and Industrial Research (ICBIR). 2023. P. 883–888. https://doi.org/10.1109/ICBIR57571.2023.10147677 
  29. Qi J., Ko T.W., Wood B.C., Pham T.A., Ong S.P. Robust training of machine learning interatomic potentials with dimensionality reduction and stratified sampling // npj Computational Materials. 2024. V. 10. N 1. P. 43. https://doi.org/10.1038/s41524-024-01227-4 
  30. Siblini W., Fréry J., He-Guelton L., Oblé F., Wang Y.Q. Master your metrics with calibration // Lecture Notes in Computer Science. 2020. V. 12080. P. 457–469. https://doi.org/10.1007/978-3-030-44584-3_36 
  31. Салахутдинова К.И., Лебедев И.С., Кривцова И.Е. Алгоритм градиентного бустинга деревьев решений в задаче идентификации программного обеспечения // Научно-технический вестник информационных технологий, механики и оптики. 2018. V. 18. № 6. C. 1016–1022. https://doi.org/10.17586/2226-1494-2018-18-6-1016-1022 
  32. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A. V., Gulin A. CatBoost: unbiased boosting with categorical features // Proc. of the Advances in neural information processing systems 31 (NeurlPS 2018). 2018.  
  33. Dorogush A.V., Gulin A., Gusev G., Kazeev N., Prokhorenkova L.O., Vorobev A. 2017. Fighting biases with dynamic boosting // arXiv. 2017. arXiv:1706.09516. https://doi.org/10.48550/arXiv.1706.09516 
  34. Dorogush A.V., Ershov V., Gulin A. CatBoost: gradient boosting with categorical features support // arXiv. 2018. arXiv:1810.11363. https://doi.org/10.48550/arXiv.1810.11363 
  35. Ami A.S., Moran K., Poshyvanyk D., Nadkarni A. «False negative-that one is going to kill you»: Understanding Industry Perspectives of Static Analysis based Security Testing // Proc. of the IEEE Symposium on Security and Privacy (SP). 2024. P. 3979–3997. https://doi.org/10.1109/SP54263.2024.00019 
  36. Heydarian M., Doyle T.E., Samavi R., MLCM: Multi-label confusion matrix // IEEE Access. 2022. V. 10. P. 19083–19095. https://doi.org/10.1109/ACCESS.2022.3151048 
  37. Chicco D., Jurman G. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation // BMC genomics. 2020. V. 21. N1. P. 1–13. https://doi.org/10.1186/s12864-019-6413-7 
  38. Bowen D., Ungar L. Generalized SHAP: Generating multiple types of explanations in machine learning // arXiv. 2020. arXiv:2006.07155. https://doi.org/10.48550/arXiv.2006.07155 
  39. Lee Y.G., Oh J.Y., Kim D., Kim G. SHAP value-based feature importance analysis for short-term load forecasting // Journal of Electrical Engineering & Technology. 2023. V. 18. N 1. P. 579–588. https://doi.org/10.1007/s42835-022-01161-9 
  40. Hamilton R.I., Papadopoulos P.N. Using SHAP values and machine learning to understand trends in the transient stability limit // IEEE Transactions on Power Systems. 2023. V. 39. N 1. P. 1384–1397. https://doi.org/10.1109/TPWRS.2023.3248941 
  41. Berrar D. Cross-validation // Encyclopedia of Bioinformatics and Computational Biology. 2019. V. 1. P. 542-545. https://doi.org/10.1016/B978-0-12-809633-8.20349-X 
  42. Tougui I., Jilbab A., El Mhamdi J. Impact of the choice of cross-validation techniques on the results of machine learning-based diagnostic applications // Healthcare informatics research. 2021. V. 27. N 3. P. 189–199. https://doi.org/10.4258/hir.2021.27.3.189 


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика