Подход к обнаружению DGA-доменов на основе контекстного обучения больших языковых моделей

Менисов Артем Бакытжанович , Моргунов Владимир Михайлович, Тимашов Павел Васильевич

doi:10.17586/2226-1494-2026-26-2-367-377

2026 , ТОМ 26, НОМЕР 2 ( март-апрель )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2026-26-2-367-377

УДК 004.9

Подход к обнаружению DGA-доменов на основе контекстного обучения больших языковых моделей

Менисов А.Б., Моргунов В.М., Тимашов П.В.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Менисов А.Б., Моргунов В.М., Тимашов П.В. Подход к обнаружению DGA-доменов на основе контекстного обучения больших языковых моделей // Научно-технический вестник информационных технологий, механики и оптики. 2026. Т. 26, № 2. С. 367–377. doi: 10.17586/2226-1494-2026-26-2-367-377

Аннотация

Введение. Рассмотрена проблема обнаружения доменов, сгенерированных алгоритмами генерации доменов (Domain Generation Algorithms, DGA), которые широко используются злоумышленниками для построения устойчивых каналов управления ботнетами и скрытой коммуникации. Традиционные методы основаны на ручной инженерии признаков или специализированных нейросетевых архитектурах, что снижает их устойчивость к быстро эволюционирующим DGA-семействам. Научная новизна предлагаемого подхода заключается в применении больших языковых моделей (БЯМ) с использованием механизма их контекстной адаптации для автоматического выявления скрытых закономерностей в доменных именах и их классификации. Метод. Разработанный подход основывается на использовании БЯМ, которые получают в контексте примеры легитимных и сгенерированных доменов. Для повышения эффективности адаптации предложены стратегии выбора примеров (TopK, VoteK), учитывающие метрики близости и вариативность данных. Дополнительно анализируется влияние длины доменного имени и энтропии строки на устойчивость подхода. Основные результаты. Экспериментальная часть выполнена на наборе данных, включающем 68 DGA-семейств и подмножестве легитимных доменов Tranco. В обучающую выборку вошли 54 семейства, а тестирование проводилось на 68 семействах, включая невидимые ранее 14. Результаты показали высокую эффективность подхода: Precision = 0,93, Recall = 0,95 и F1-мера = 0,94. Подтверждена способность БЯМ обобщать закономерности на новые DGA-семейства. Обсуждение. По сравнению с существующими методами, предложенный подход не требует дополнительного переобучения и отличается гибкостью за счет использования контекстной адаптации. Адаптация подхода показала устойчивость к шуму и возможность выявления новых DGA-семейств, что делает ее перспективной для применения в системах кибербезопасности. В то же время выявлена чувствительность модели к длине доменных имен и необходимость балансировки контекста. Перспективными направлениями развития являются интеграция дополнительных признаков (метаданные Domain Name System (DNS), временные ряды запросов) и адаптация подхода к потоковой обработке в реальном времени.

Ключевые слова: информационная безопасность, DNS-туннелирование, алгоритмы генерации доменов, большие языковые модели, контекстная адаптация

Список литературы

1. Hassaoui M., Hanini M., Kafhali S.E. Data science in cybersecurity to detect malware-based domain generation algorithm: improvement, challenges, and prospects // Journal of Computational and Cognitive Engineering. 2024. V. 3. N 3. P. 213–225. https://doi.org/10.47852/bonviewJCCE42022875

2. Albluwi A., Albalawi U., Elfaki A.O. A DNS threat awareness practical framework using knowledge graph // Journal of Information Science and Engineering. 2025. V. 41. P. 1239–1261.

3. Arora A., Shantanu. A review on application of GANs in cybersecurity domain // IETE Technical Review. 2022. V. 39. N 2. P. 433–441. https://doi.org/10.1080/02564602.2020.1854058

4. Patsakis C., Casino F. Exploiting statistical and structural features for the detection of Domain Generation Algorithms // Journal of Information Security and Applications. 2021. V. 58. P. 102725. https://doi.org/10.1016/j.jisa.2020.102725

5. Kolte S., Jare A., Babar V., Kadam S., Tekade P., Salunke D. A machine learning-based framework for real-time DNS threat detection and mitigation using ensemble models and advanced security mechanisms // Proc. of the International Conference on Electronics, AI and Computing (EAIC). 2025. P. 1–6. https://doi.org/10.1109/EAIC66483.2025.11101638

6. Pelayo-Benedet T., Rodríguez R.J., Gañán C.H. Poster: Exploring the zero-shot potential of large language models for detecting algorithmically generated domains // Lecture Notes in Computer Science. 2025. V. 15748. P. 86–92. https://doi.org/10.1007/978-3-031-97623-0_5

7. Alorainy W.S. Echoes from the void: detecting DNS tunneling with blackhole features in encrypted scenarios with high accuracy // IEEE Access. 2025. V. 13. P. 138551–138567. https://doi.org/10.1109/ACCESS.2025.3595455

8. Sharma N., Swarnkar M. DLAZE: Detecting DNS tunnels using lightweight and accurate method for zero-day exploits // IEEE Transactions on Network and Service Management. 2025. V. 22. N 3. P. 2343–2353. https://doi.org/10.1109/TNSM.2025.3541234

9. Fu Y., Yu L., Hambolu O., Ozcelik I., Husain B., Sun J., et al. Stealthy domain generation algorithms // IEEE Transactions on Information Forensics and Security. 2017. V. 12. N 6. P. 1430–1443. https://doi.org/10.1109/TIFS.2017.2668361

10. Cao Y., Li S., Liu Y., Yan Z., Dai Y., Yu P., Sun L. A survey of AI-Generated Content (AIGC) // ACM Computing Surveys. 2025. V. 57. N 5. P. 1–38. https://doi.org/10.1145/3704262

11. De Bernardi G., Gaggero G.B., Patrone F., Zappatore S., Marchese M., Mongell M. Rule-based eXplainable autoencoder for DNS tunneling detection // Computers. 2025. V.14. N 9. P. 375. https://doi.org/10.3390/computers14090375

12. Bykov N., Chernyshov Y. Detecting DNS tunnels using machine learning // Proc. of the IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT). 2024. P. 92–94. https://doi.org/10.1109/usbereit61901.2024.10584043

13. Namgung J., Son S., Moon Y.-S. Efficient deep learning models for DGA domain detection // Security and Communication Networks. 2021. V. 2021. N 1. P. 8887881. https://doi.org/10.1155/2021/8887881

14. Zhou S., Lin L., Yuan J., Wang F., Ling Z., Cui J. CNN-based DGA detection with high coverage // Proc. of the IEEE International Conference on Intelligence and Security Informatics (ISI). 2019. P. 62–67. https://doi.org/10.1109/isi.2019.8823200

15. Vu X.H., Hoang X.D., Chu T.H.H. A novel model based on ensemble learning for detecting DGA botnets // Proc. of the 14^th International Conference on Knowledge and Systems Engineering (KSE). 2022. P. 1–6. https://doi.org/10.1109/kse56063.2022.9953792

16. Tapsoba A.R., Ouédraogo T.F., Zongo W.B.S. Analysis of plaintext features in DoH traffic for DGA domains detection // Lecture Notes in Networks and Systems. 2024. V. 932. P. 127–138. https://doi.org/10.1007/978-3-031-54235-0_12

17. Harishkumar S., Bhuvaneswaran R.S. Enhanced DGA detection in Botnet traffic: leveraging N-Gram, topic modeling, and attention BiLSTM // Peer-to-Peer Networking and Applications. 2025. V.18. N 1. P. 55. https://doi.org/10.1007/s12083-024-01822-8

18. Tian Y., Li Z. Dom-Bert: Detecting malicious domains with pre-training model // Lecture Notes in Computer Science. 2024. V. 14537. P. 133–158. https://doi.org/10.1007/978-3-031-56249-5_6

19. Zhang J., Bu H., Wen H., Liu Y., Fei H., Xi R., et al. When LLMs meet cybersecurity: a systematic literature review // Cybersecurity. 2025. V. 8. N 1. P. 55. https://doi.org/10.1186/s42400-025-00361-w

20. Arslan M., Ghanem H., Munawar S., Cruz C. A survey on RAG with LLMs // Procedia Computer Science. 2024. V. 246. P. 3781–3790. https://doi.org/10.1016/j.procs.2024.09.178

21. Wu X.-K., Chen M., Li W., Wang R., Lu L., Liu J., et al. LLM Fine-tuning: concepts, opportunities, and challenges // Big Data and Cognitive Computing. 2025. V. 9. N 4. P. 87. https://doi.org/10.3390/bdcc9040087

22. Highmore C. In-context learning in large language models: a comprehensive survey // Preprints.org. 2024. 11 p. https://doi.org/10.20944/preprints202407.0926.v1

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License