DOI: 10.17586/2226-1494-2017-17-1-110-116


УДК519.765

ИСПОЛЬЗОВАНИЕ ВЕРОЯТНОСТНОГО РАСПРЕДЕЛЕНИЯ НАД МНОЖЕСТВОМ КЛАССОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ АРАБСКИХ ДИАЛЕКТОВ

Дурандин О. В., Хилал Н. Р., Стребков Д. Ю., Золотых Н. Ю.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Дурандин О.В., Хилал Н.Р., Стребков Д.Ю., Золотых Н.Ю. Использование вероятностного распределения над множеством классов в задаче классификации арабских диалектов // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 110–116. doi: 10.17586/2226-1494-2017-17-1-110-116

Аннотация

Предмет исследования.Предложен подход к решению задачи классификации, использующий информацию о распределении вероятностей на множестве классов в обучающей выборке. Алгоритм проиллюстрирован на одной из сложных задач автоматической обработки текстов на естественном языке – классификации арабских диалектов. Метод.Каждому объекту обучающей выборки сопоставляется распределение вероятностей над метками классов, вместо сопоставления единственной метки класса. Предлагаемый подход решает задачу с учетом распределения вероятностей над множеством классов для повышения качественных показателей работы классификатора. Основные результаты. Предложенный подход проиллюстрирован на примере задачи классификации арабских диалектов. Анализируемые данные,содержащие слова-метки,получены из социальной сети Twitter, относящиеся к шести арабским диалектам: саудовский, левантийский, алжирский, египетский, иракский, иорданский; использованы также сообщения на современном стандартном арабском языке (MSA). Показан рост качества классификации при учете вероятностного распределения над множеством классов в обучающей выборке. Показано, что даже относительно простой учет вероятностного распределения увеличивает точность предсказания с 44% до 67%. Практическая значимость.Предложенный подход и соответствующий алгоритм могут найти применение в случае, когда разметка данных экспертом требует значительных временных и финансовых ресурсов, но имеется возможность разработки эвристических правил. Реализация предложенного алгоритма позволит снизить затраты при подготовке данных без значительной потери точности классификации.


Ключевые слова: задача классификации, многоклассовая классификация, автоматическая аннотация, арабский диалект, классификация диалектов, меточный шум

Список литературы
 
1.     Kearns M.J., Vazirani U.V. An Introduction to Computational Learning Theory. MIT Press, 1994. 221 p.
2.     Flach P. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2012. 409 p.
3.     Bezdek J.C., Keller K., Krisnapuram R., Pal N. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing. Springer, 1999. 776 p.
4.     Denoeux T., Zouhal L.M. Handling possibilistic labels in pattern classification using evidential reasoning // Fuzzy Sets and Systems. 2001. V. 122. N 3. P. 409–424. doi: 10.1016/s0165-0114(00)00086-5
5.     Denoeux T. Maximum likelihood estimation from uncertain data in the belief function framework // IEEE Transactions on Knowledge and Data Engineering. 2013. V. 25. N 1. P. 119–130. doi: 10.1109/tkde.2011.201
6.     Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference and Prediction. 7th ed. Springer, 2013. 745 p.
7.     Durandin O., Hilal N., Strebkov D. Automatic Arabic dialect identification // Computational Linguistics and Intellectual Technologies: Proc. Int. Conf. “Dialogue 2016”. Moscow, 2016.
8.     Habash N.Y. Introduction to Arabic Natural Language Processing. Toronto: Morgan & Claypool, 2010. 186 p.
9.     Heintz I. Arabic language modeling with stem-derived morphemes for automatic speech recognition. Ph.D. thesis.Ohio State University, 2010. 202 p.
10.  Almeman K., Lee M. Toward developing a multi-dialect morphological analyser for Arabic // Proc. 4th Int. Conf. on Arabic Language Processing. Rabat, Morocco, 2012. P. 19–25.
11.  Cavnar W.B., Trenkle J.M. N-gram-based text categorization // Proc. 3rd Annual Symposium on Document Analysis and Information Retrieval. 1994. P. 161–175.
12.  Miao Y., Keselj V., Milios E. Document clustering using character N-grams: a comparative evaluation with term-based and word-based clustering // Proc. 14th ACM Int. Conf. on Information and Knowledge Management. 2005. P. 357–358.
13.  Brieman L. Random forests // Machine Learning. 2001. V. 45. N 5. P. 5–32.
14.  Zhang M.L., Zhou Z.H. A review on multi-label learning algorithms // IEEE Transations on Knowledge and Data Engineering. 2014. V. 26. N 8. P. 1819–1837. doi: 10.1109/tkde.2013.39
15.  Segal M.R. Machine Learning Benchmarks and Random Forests Regression. Technical Report. Univ. California, San Francisco, 2004.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика