Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-982-990
УДК 004.89
Бенабдаллах А., Абдеррахим М.А., Мокри М.
Анализ настроений арабских твитов с использованием контролируемого машинного обучения
Анализ настроений арабских твитов с использованием контролируемого машинного обучения
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Бенабдаллах А., Абдеррахим М.А., Мокри М. Анализ настроений арабских твитов с использованием контролируемого машинного обучения // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 982–990 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-982-990
Аннотация
Растущий объем пользовательского контента на платформах социальных сетей требует эффективных инструментов для понимания общественных настроений. В работе представлен подход к анализу настроений арабских твитов с использованием контролируемых методов машинного обучения. Исследована производительность трех популярных алгоритмов — опорных векторных машин (Support Vector Machines, SVM), наивного байесовского алгоритма (Naive Bayes, NB) и логистической регрессии (Logistic Regression, LR) — на двух отдельных корпусах: арабском корпусе текстов настроений (Arabic Sentiment Text Corpus, ASTC) и корпусе арабских твитов. Подход содержал четыре теста, оценивающих влияние характеристик корпуса: метода предварительной обработки, метода взвешивания и использования N-грамм на точность классификации. Первый тест позволил установить, что выбор корпуса значительно влияет на производительность модели, при этом SVM показал высокую точность на структурированном ASTC, в то время как NB лучше работает с неформальными арабскими твитами. Во втором тесте предварительная обработка, включая удаление знаков препинания и стоп-слов, привела к заметному улучшению точности классификации для арабских твитов, но оказала минимальное или даже отрицательное влияние на ASTC. Третий тест показал, что включение N-грамм дало незначительное улучшения для NB и LR в более структурированных текстах, в то время как его влияние на твиты было незначительным. Четвертый тест позволил сравнить различные методы взвешивания, показав, что SVM выиграл по сравнению с методом взвешивания TF-IDF, в то время как производительность NB оставалась стабильной независимо от подхода к взвешиванию. Полученные результаты подчеркивают важность адаптации стратегий предварительной обработки и извлечения признаков к конкретным характеристикам набора данных, что в итоге повышает точность анализа настроений в контекстах арабского языка.
Ключевые слова: анализ настроений на арабском языке (ASA), машинное обучение, классификатор, полярность, Twitter