doi: 10.17586/2226-1494-2022-22-2-287-293


УДК 004.9

Классификация коротких текстов с использованием волновой модели

Груздева А.С., Бессмертный И.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Груздева А.С., Бессмертный И.А. Классификация коротких текстов с использованием волновой модели // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 2. С. 287–293. doi: 10.17586/2226-1494-2022-22-2-287-293


Аннотация
Предмет исследования. Алгоритмы квантовых вычислений активно развиваются и применяются в области обработки естественного языка. В работе предложен новый квантово-подобный метод классификации коротких текстов. Метод. Основу метода составляет представление текста в виде ансамбля элементарных частиц. В качестве критерия классификации выбрано значение амплитуды вероятности обнаружения данного ансамбля в выбранных точках векторного пространства, описываемого при помощи дистрибутивно-семантической модели языка. Предложен один из возможных способов интерпретации параметров волновой функции описания поведения элементарной частицы, а также алгоритм расчета амплитуды вероятности с учетом этих параметров. Основные результаты. Выполнена экспериментальная проверка описанного метода с применением классификации интернет-сообществ по тематикам. Для расчетов использованы наименования и сведения разделов «информация» по 100 группам социальной сети «ВКонтакте» по пяти различным темам. Предложенная модель показала достаточно высокую точность классификации, которая составила 91 % в целом на наборе данных и от 75 % до 95 % в пределах отдельных классов. Практическая значимость. Представленная модель может быть использована для классификации отзывов пользователей о товарах, услугах и событиях, а также при определении некоторых свойств психологических портретов пользователей интернет-сообществ.

Ключевые слова: классификация, обработка естественного языка, волновая модель, интерференция, квантово-подобная модель, определение тематики текста

Благодарности. Работа выполнена в рамках магистерско-аспирантской НИР № 620164 «Методы искусственного интеллекта для киберфизических систем».

Список литературы
  1. Nielsen M.A., Chuang I.L. Quantum Computation and Quantum Information. Cambridge University Press, 2010. 704 р. https://doi.org/10.1017/CBO9780511976667
  2. Melucci M. Introduction to Information Retrieval and Quantum Mechanics. Berlin, Heidelberg: Springer-Verlag, 2015. 247 р. https://doi.org/10.1007/978-3-662-48313-8
  3. Blacoe W., Kashefi E., Lapata M. A Quantum-theoretic approach to distributional semantics // Proc. of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT). 2013. P. 847–857.
  4. Jaiswal A.K., Holdack G., Frommholz I., Liu H. Quantum-like Generalization of complex word embedding: a lightweight approach for textual classification // CEUR Workshop Proceedings. 2018. V. 2191. P. 159–168.
  5. Surov I.A., Semenenko E., Platonov A.V.,Bessmertny I.A.,Galofaro F.,Toffano Z.,KhrennikovA.Y.,Alodjants A.P.Quantum semantics of text perception// Scientific Reports. 2021. V. 11. N 1. P. 4193. https://doi.org/10.1038/s41598-021-83490-9
  6. Pang B., Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts // Proc. of the 42nd Annual Meeting Association for Computational Linguistics (ACL). 2004. P. 271–278. https://doi.org/10.3115/1218955.1218990
  7. Клековкина М.В., Котельников Е.В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Материалы XIV Всероссийской научной конференции (RCDL-2012). 2012. С. 118–123.
  8. Меньшиков И.Л. Анализ тональности текста на русском языке при помощи графовых моделей // Доклады всероссийской научной конференции АИСТ'2013 «Анализ Изображений, Сетей и Текстов». Екатеринбург, 2013. C. 151–155.
  9. Татарникова Т.М., Богданов П.Ю. Построение психологического портрета человека с применением технологий обработки естественного языка // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21.№ 1. С. 85–91. https://doi.org/10.17586/2226-1494-2021-21-1-85-91
  10. Литвинова Т.А.,Загоровская О.В., Середин П.В., Лантюхова Н.Н., Шевченко И.C. Профилирование автора письменного текста: подходы, методы и их оптимизация //Филология, искусствоведение и культурология: актуальные вопросы и тенденции развития: материалы международной. научно-практической конференции(13 мая 2013 г.). Новосибирск: СибАК, 2013. С. 69–79.
  11. Френкель Я.И. Волновая механика. Ч. 1. Элементарная теория. Квантовая физика. М.: URSS, 2019. 392 с.
  12. Kutuzov A., Kuzmenko E. WebVectors: A toolkit for building web interfaces for vector semantic models // Communications in Computer and Information Science. 2017. V. 661. P. 155–161. https://doi.org/10.1007/978-3-319-52920-2_15
  13. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N., Biemann C. Human and machine judgements about russian semantic relatedness // Communications in Computer and Information Science. 2017. V. 661. P. 221–235. https://doi.org/10.1007/978-3-319-52920-2_21
  14. Kolb P. Experiments on the difference between semantic similarity and relatedness // Proc. of the 17th Nordic Conference of Computational Linguistics (NODALIDA '09). 2009. P. 81–88.
  15. Kolb P. DISCO: A multilingual database of distributionally similar words // Proc. of the KONVENS-2008. Berlin. 2008.P. 6–12.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика