Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2022-22-1-114-119
УДК 004.912
Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Шадский В.В., Сизоненко А.Б., Чекмарев М.А., Шишков А.В., Исакин Д.А. Исследование способов векторизации неструктурируемых текстовых документов на естественном языке по степени их влияния на качество работы различных классификаторов // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 1. С. 114–119. doi:10.17586/2226-1494-2022-22-1-114-119
Аннотация
Предмет исследования. Повсеместное увеличение объемов обрабатываемой информации на объектах критической информационной инфраструктуры, представленной в текстовой форме на естественном языке, создает проблему ее классификации по степени конфиденциальности. Успех решения данной задачи зависит как от самой модели-классификатора, так и от выбранного способа извлечения признаков (векторизации). Требуется максимально полно передать модели-классификатору свойства исходного текста, содержащие всю совокупность демаркационных признаков. В работе представлена эмпирическая оценка эффективности алгоритмов линейной классификации, основанная на выбранном способе векторизации, а также значении количества настраиваемых параметров в случае применения векторизатора хеширования (Hash Vectorizer). Метод. В качестве датасета для обучения и тестирования алгоритмов классификации использованы государственные текстовые документы, условно выступающие в роли конфиденциальных. Выбор подобного текстового массива обусловлен наличием специфической терминологии, повсеместно встречающейся в рассекреченных документах. Терминированность, являясь примитивной демаркационной границей и выступая в роли классификационного признака, облегчает работу алгоритмов классификации, что в свою очередь позволяет сконцентрировать внимание на той доли вклада, которую вносит выбранный способ векторизации. Метрикой оценки качества работы алгоритмов выступает величина ошибки классификации. За величину ошибки принята величина, обратная доле правильных ответов алгоритма (accuracy). Проведена оценка алгоритмов по времени обучения. Основные результаты. Полученные гистограммы отражают величину ошибки алгоритмов и время обучения. Выделены наиболее и наименее эффективные алгоритмы для конкретно заданного способа векторизации. Практическая значимость. Результаты работы позволяют повысить эффективность решения реальных практических классификационных задач текстовых документов небольшого объема со свойственной специфической терминологией.
Ключевые слова: способ векторизации, TF-IDF, Hash Vectorizer, алгоритм классификации, accuracy
Благодарности. Работа выполнена в Краснодарском высшем военном училище им. С.М. Штеменко в рамках диссертационного исследования в области обработки естественного языка
Список литературы
Благодарности. Работа выполнена в Краснодарском высшем военном училище им. С.М. Штеменко в рамках диссертационного исследования в области обработки естественного языка
Список литературы
-
BaturaT.V. Automatictextclassificationmethods. Software & Systems, 2017, no. 1, pp. 85–99. (in Russian). https://doi.org/10.15827/0236-235X.030.1.085-099
-
Bortnikov V.I., Mikhailova Iu.N. Documentary Linguistics. Ekaterinburg, Izdatel'stvo Ural'skogo universiteta Publ., 2017, 132 с. (in Russian)
-
RogotnevaE.N. DocumentaryLinguistics. Teachingmaterials. Tomsk, TomskPolytechnicUniversityPubl., 2011, 784 с. (inRussian)
-
OrlovA.I. Mathematicalmethodsofclassificationtheory.Polythematic online scientific journalof Kuban State Agrarian University, 2014, no. 95, pp. 23–45. (in Russian)
-
KosovaM.V., SharipovaR.R. Terminationasthebasisforclassificationofdocumenttexts. Science Journal of Volgograd State University.Linguistics, 2016, vol. 15, no. 4, pp. 245–252. (in Russian). https://doi.org/10.15688/jvolsu2.2016.4.26
-
Terskikh N.V. Term as a unit of specialized knowledge . Sistema cennostej sovremennogo obshhestva, 2008, no. 3, pp. 97–104. (in Russian)
-
Rozental D.E., Golub I.B., Telenkova M.A. Contemporary Russian Language. Moscow, AJRIS-press Publ., 2014, 448 p. (in Russian)
-
Krasheninnikov A.M., Gdanskiy N.I., Rysin M.L. Linear classification of objects using normal hyperplanes. Engineering journal of Don, 2012, no. 4-1 (22), pp. 94–99. (in Russian)
-
Dan Nelson. Overview of Classification Methods in Python with Scikit-Learn. Stack Abuse. Available at: https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/ (accessed: 20.12.2021).
-
Woods W. Important issues in knowledge representation. Proceedings of the IEEE, 1986, vol. 74, no. 10, pp. 1322–1334. https://doi.org/10.1109/PROC.1986.13634
-
Raschka S., Mirjalili V. Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2. Packt Publishing Ltd, 2019, 770 p.
-
Qaiser S., Ali R. Text mining: Use of TF-IDF to examine the relevance of words to documents. International Journal of Computer Applications, 2018, vol. 181, no. 1, pp. 25–29. https://doi.org/10.5120/ijca2018917395
-
Kavita Ganesan.HashingVectorizer vs. CountVectorizer. Available at: https://kavita-ganesan.com/hashingvectorizer-vs-countvectorizer/#.YcGOyavP2Ul (accessed: 20.12.2021).
-
Jason Brownlee. How to Encode Text Data for Machine Learning with scikit-learn. Machine learning mastery. Available at: https://machinelearningmastery.com/prepare-text-data-machine-learning-scikit-learn/ (accessed: 20.12.2021).
-
Max Pagels. Introducing One of the Best Hacks in Machine Learning: the Hashing Trick. Medium. Available at: https://medium.com/value-stream-design/introducing-one-of-the-best-hacks-in-machine-learning-the-hashing-trick-bf6a9c8af18f (accessed: 20.12.2021).