Облегченная система рекомендаций для анализа социальных сетей с использованием гибридного алгоритма классификатора BERT-SVM

Кирутика Налличери Субраманиан, Тайламбал Ганапати

doi:10.17586/2226-1494-2022-22-4-769-778

2022 , ТОМ 22, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2022-22-4-769-778

УДК 004.896

Облегченная система рекомендаций для анализа социальных сетей с использованием гибридного алгоритма классификатора BERT-SVM

Кирутика Н., Ганапати Т.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Кирутика Н.С., Тайламбал Г. Облегченная система рекомендаций для анализа социальных сетей с использованием гибридного алгоритма классификатора BERT-SVM // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 4. С. 769–778 (на англ. яз.). doi: 10.17586/2226-1494-2022-22-4-769-778

Аннотация

Платформы социальных сетей, такие как Twitter, Instagram и Facebook, способствуют массовому общению и установлению связей. Развитие и продвижение социальных платформ приводит к увеличению распространения фейковых новостей. В настоящее время проведено большое количество исследований для обнаружения фейковых новостей с помощью алгоритмов машинного обучения. Существующие методы определения фейков имеют ряд трудностей: быстрое распространение фейков; различные методы доступа и незначительный выбор признаков, приводящие к невысокой точности классификации текста. Для преодоления данных трудностей предложена Light weight recommendation system for social networking analysis using a hybrid BERT-SVM classifier algorithm Научно-технический вестник информационных технологий, механики и оптики, 2022, том 22, № 4 770 Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2022, vol. 22, no 4 гибридная модель представления двунаправленного кодировщика трансформаторов – метод опорных векторов (BERT-SVM) с системой рекомендаций, которая используется для прогнозирования, является ли информация поддельной или реальной. Предложенная модель включает в себя три этапа: предварительная обработка, выбор признаков и классификация. Набор данных собран из социальных сетей Twitter, связанных с данными о COVID-19 в режиме реального времени. Этап предварительной обработки включает в себя разделение, удаление стоп-слов, лемматизацию и исправление орфографии. Преобразователь обратной частоты документа (TFIDF) использован для извлечения признаков и преобразования текста в двоичные векторы. Гибридная модель классификации BERT-SVM применена для прогнозирования данных, которые сопоставлены с предварительно обработанными данными. Представленная модель реализована в программном пакете MATLAB. Рассчитанные показатели точности продемонстрировали следующие результаты: доля правильных ответов 98 %, ошибка 2 %, точность 99 %, специфичность 99 %, чувствительность 98 %. Полученные результаты показали эффективность предложенной модели по сравнению с существующими подходами. Возможность анализа социальных сетей обеспечивает эффективное предсказание фейковых новостей, которое можно использовать для идентификации комментариев в Twitter, как настоящих, так и поддельных

Ключевые слова: анализ социальных сетей, обнаружение фейковых новостей, TF/IDF, BERT, SVM, гибридная BERT-SVM

Список литературы

Kaur S., Kumar P., Kumaraguru P. Automating fake news detection system using multi-level voting model // Soft Computing. 2020. V. 24. N 12. P. 9049–9069. https://doi.org/10.1007/s00500-019-04436-y
Kaliyar R.K., Goswami A., Narang P., Sinha S. FNDNet – a deep convolutional neural network for fake news detection // Cognitive Systems Research. 2020. V. 61. P. 32–44. https://doi.org/10.1016/j.cogsys.2019.12.005
Shim J.-S., Lee Y., Ahn H. A link2vec-based fake news detection model using web search results // Expert Systems with Applications. 2021. V. 184. P. 115491. https://doi.org/10.1016/j.eswa.2021.115491
Umer M., Imtiaz Z., Ullah S., Mehmood A., Choi G.S., On B.-W. Fake news stance detection using deep learning architecture (CNN-LSTM) // IEEE Access. 2020. V. 8. P. 156695–156706. https://doi.org/10.1109/ACCESS.2020.3019735
Hakak S., Alazab M., Khan S., Gadekallu T.R., Maddikunta P.K.R., Khan W.Z. An ensemble machine learning approach through effective feature extraction to classify fake news // Future Generation Computer Systems. 2021. V. 117. P. 47–58. https://doi.org/10.1016/j.future.2020.11.022
Abdullah, Yasin A., Avan M.J., Shehzad M.F., Ashraf M. Fake news classification bimodal using convolutional neural network and long short-term memory // International Journal on Emerging Technologies. 2020. V. 11. N 5. P. 209–212.
Huang Y.-F., Chen P.-H. Fake news detection using an ensemble learning model based on self-adaptive harmony search algorithms // Expert Systems with Applications. 2020. V. 159. P. 113584. https://doi.org/10.1016/j.eswa.2020.113584
Paka W.S., Bansal R., Kaushik A., Sengupta S., Chakraborty T. Cross-SEAN: A cross-stitch semi-supervised neural attention model for COVID-19 fake news detection // Applied Soft Computing. 2021. V. 107. P. 107393. https://doi.org/10.1016/j.asoc.2021.107393
Nasir J.A., Khan O.S., Varlamis I. Fake news detection: A hybrid CNN-RNN based deep learning approach // International Journal of Information Management Data Insights. 2021. V. 1. N 1. P. 100007. https://doi.org/10.1016/j.jjimei.2020.100007
Sabeeh V., Zohdy M., Mollah A., Al Bashaireh R. Fake news detection on social media using deep learning and semantic knowledge sources // International Journal of Computer Science and Information Security (IJCSIS). 2020. V. 18. N 2. P. 45-68.
Bahad P., Saxena P., Kamal R. Fake news detection using bi-directional LSTM-recurrent neural network // Procedia Computer Science. 2019. V. 165. P. 74–82. https://doi.org/10.1016/j.procs.2020.01.072
Qaiser S., Ali R. Text mining: Use of TF-IDF to examine the relevance of words to documents // International Journal of Computer Applications. 2018. V. 181. N 1. P. 25–29. https://doi.org/10.5120/ijca2018917395
Pota M., Ventura M., Catelli R., Esposito M. An effective BERT-based pipeline for Twitter sentiment analysis: a case study in Italian // Sensors. 2021. V. 21. N 1. P. 133. https://doi.org/10.3390/s21010133
Malla S., Alphonse P.J.A. COVID-19 outbreak: An ensemble pre-trained deep learning model for detecting informative tweets // Applied Soft Computing. 2021. V. 107. P. 107495. https://doi.org/10.1016/j.asoc.2021.107495
Goudjil M., Koudil M., Bedda M., Ghoggali N. A novel active learning method using SVM for text classification // International Journal of Automation and Computing. 2018. V. 15. N 3. P. 290–298. https://doi.org/10.1007/s11633-015-0912-z
Zhu J., Tian Z., Kübler S. UM-IU@LING at SemEval-2019 task 6: Identifying offensive tweets using BERT and SVMs // Proceedings of the 13^th International Workshop on Semantic Evaluation. 2019. P. 788–795. https://doi.org/10.18653/v1/s19-2138

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License