Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
![](/pic/nikiforov.jpg)
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2023-23-2-304-312
УДК 004.7
Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения
Читать статью полностью
![](/images/pdf.png)
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Салим Раджа А.C., Прадипа Г., Махалакшми С., Джаякумар М.C. Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 2. С. 304–312 (на англ. яз.). doi: 10.17586/2226-1494-2023-23-2-304-312
Аннотация
В настоящие время количество кибератак постоянно увеличивается, и борьба с ними остается сложной задачей. Киберпреступники используют различные стратегии для манипулирования и использования уязвимостей своих целей. Вредоносные URL-адреса — одна из таких стратегий, которая ориентирована на большие группы пользователей, находящихся в социальных сетях. В Интернете для привлечения пользователей преступники маскируют URL-адреса под безопасные. Преднамеренное или непреднамеренное использование таких URL-адресов подвергает опасности пользователя или организацию в киберпространстве и открывает путь для дальнейших атак. Системы, которые используют алгоритмы на основе правил или машинного обучения для поиска вредоносных URL-адресов, обычно полагаются на применение специальных функционалов. Это требует знания предметной области и опыта. Вместе с тем даже при извлечении опасных признаков из набора данных их потенциал может быть применен не полностью. В работе предложено использовать обработку естественного языка (Natural Language Processing, NLP) для векторизации слов в URL-адресах, а также моделей машинного и глубокого обучения для их классификации. Техника векторизации при обработке естественного языка позволяет снизить усилия по разработке признаков и максимально использует набор данных. Для эксперимента применены два набора данных, а для векторизации текста URL — три метода. Результаты эксперимента показали, что модели дерева решений (Decision Tree, DT) и метода случайного леса (Random Forest, RF) достигли точностей 99,4 % и 99,3 % с использованием машинного обучения с векторизаторами Count и Hash. Модели DT и метода опорных векторов (Support Vector Machine, SVM) обеспечили высокую точность 99,5 % с использованием меры Term Frequency-Inverse Document Frequency (TF-IDF). В модели глубокого обучения нейронной сети (Artificial Neural Network, ANN) получена точность 99,2 %, что выше в сравнении с использованием сверточной нейронной сети (Convolutional Neural Network, CNN).
Ключевые слова: вредоносный домен, фишинговый URL, NLP, машинное обучение, глубокое обучение
Список литературы
Список литературы
-
Da H., Xu K., Pei J. Malicious URL detection by dynamically mining patterns without pre-defined elements // World Wide Web. 2014. V. 17. N 6. P. 1375–1394. https://doi.org/10.1007/s11280-013-0250-4
-
Saleem Raja A., Pradeepa G., Arulkumar N. Mudhr. Malicious URL detection using heuristic rules based approach // AIP Conference Proceedings. 2022. V. 2393. N 1. P. 020176. https://doi.org/10.1063/5.0074077
-
Sahoo D., Liu C., Hoi S.C.H. Malicious URL detection using machine learning: A survey // ArXiv. 2017. arXiv:1701.07179. https://doi.org/10.48550/arXiv.1701.07179
-
Brownlee J. Deep Learning with Python: Develop Deep Learning Models on Theano and TensorFlow Using Keras. Machine Learning Mastery, 2016. 256 p.
-
Pradeepa G., Devi R. Lightweight approach for malicious domain detection using machine learning // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22. № 2. С. 262–268. https://doi.org/10.17586/2226-1494-2022-22-2-262-268
-
Saleem R.A., Vinodini R., Kavitha A. Lexical features based malicious URL detection using machine learning techniques // Materials Today: Proceedings. 2021. V. 47. Part 1. P. 163–166. https://doi.org/10.1016/j.matpr.2021.04.041
-
Bengfort B., Bilbro R., Ojeda T. Applied Text Analysis with Python Enabling Language-Aware Data Products with Machine Learning. O’Reilly Media, 2018. 332 p.
-
Vishva E.S., Aju D. Phisher fighter: Website phishing detection system based on URL and term frequency-inverse document frequency values // Journal of Cyber Security and Mobility. 2022. V. 11. N 1. P. 83–104. https://doi.org/10.13052/jcsm2245-1439.1114
-
Li S., Gong B. Word embedding and text classification based on deep learning methods // MATEC Web Conference. 2021. V. 336. P. 06022. https://doi.org/10.1051/matecconf/202133606022
-
Géron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow. O’Reilly Media, 2017. 574 p.
-
Zhang M. Applications of deep learning in news text classification // Scientific Programming for Smart Internet of Things. 2021. V. 2021. P. 6095354. https://doi.org/10.1155/2021/6095354
-
Lakshmanarao A., Raja Babu M., Bala Krishna M.M. Malicious URL detection using NLP, machine learning and FLASK // Proc. of the International Conference on Innovative Computing, Intelligent Communication and Smart Electrical Systems (ICSES). 2021. P. 1–4. https://doi.org/10.1109/ICSES52305.2021.9633889
-
Liu B., Zeng X., Dong P. Malicious URL detection system based on LSTM and attention mechanism // Journal of Physics: Conference Series. 2021. V. 2037. N 1. P. 012016. https://doi.org/10.1088/1742-6596/2037/1/012016
-
Routhu S.R., Amey U., Alwyn R.P. Application of word embedding and machine learning in detecting phishing websites // Telecommunication Systems. 2022. V. 79. N 1. P. 33–45. https://doi.org/10.1007/s11235-021-00850-6
-
Zhang X., Zeng Y., Jin X.-B., Yan Z.-W., Geng G.-G. Boosting the phishing detection performance by semantic analysis // Proc. of the International Conference on Big Data. 2017. P. 1063–1070. https://doi.org/10.1109/BigData.2017.8258030
-
Malak A., Samitha M. Phishing attacks detection using machine learning and deep learning models // Proc. of the 7th International Conference on Data Science and Machine Learning Applications (CDMA). 2022. P. 175–180. https://doi.org/10.1109/CDMA54072.2022.00034
-
Aung E.S., Yamana H. Phishing URL detection using information-rich domain and path features // Proc. of the DEIM. 2021.
-
Gopinath P., Sangeetha S., Balaji R., Sanjay, Shubham G., Bindhumadhava B.S. Malicious domain detection using machine learning on domain name features, host-based features and web-based features // Procedia Computer Science. 2020. V. 171. P. 654–661. https://doi.org/10.1016/j.procs.2020.04.071