doi: 10.17586/2226-1494-2021-21-1-102-108


УДК 004.623

КВАНТОВАЯ СЕМАНТИЧЕСКАЯ МОДЕЛЬ ПОИСКА ТЕКСТА НА АРАБСКОМ ЯЗЫКЕ

Шакер А., Бессмертный И.А., Мирославская Л.А., Королёва Ю.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Шакер Алаа, Бессмертный И.А., Мирославская Л.А., Королёва Ю.А. Квантовая семантическая модель поиска текста на арабском языке // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 1. С. 102–108. doi: 10.17586/2226-1494-2021-21-1-102-108


Аннотация
Предмет исследования. Рассмотрен процесс извлечения семантики из текстов на арабском языке. Изучена применимость к парам слов теста Белла как мера семантической связанности слов в контексте. Приведены результаты исследования применимости квантового формализма к информационному поиску в текстах на арабском языке. Показано влияние ширины контекста на результативность информационного поиска. Метод. Предлагаемая модель поиска базируется на векторном представлении контекста с помощью известного подхода на основе матрицы Hyperspace Analogue to Language (HAL) и теста Белла. Матрица HAL позволяет учитывать частоты встречаемости слов контекста и дистанцию до целевого слова. Использование квантовой теории, оперирующей матрицами плотности вероятностей, позволяет более естественным образом описывать вероятности в векторном представлении слов. Основные результаты. Полученные результаты демонстрируют, что использование теста Белла для текстов на арабском языке обеспечивает лучшее ранжирование результатов поисковой выдачи по сравнению с результатами поисковых сервисов. Практическая значимость. Результаты исследования могут использоваться при разработке информационно-поисковых систем, а также для дальнейшего развития методов на основе дистрибутивной гипотезы.

Ключевые слова: неравенство Белла, квантовая запутанность, информационный поиск, матрица HAL, алгоритмы информационного поиска, квантовая теория, арабский язык, обработка естественных языков

Список литературы
1. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // ICML’97: Proc. of the Fourteenth International Conference on Machine Learning. 1997. P. 412–420.
2. Peñas A., Verdejo F., Gonzalo J. Corpus-based terminology extraction applied to information access // Proc. of the Corpus Linguistics 2001 Conference. 2001. P. 458–465.
3. Бессмертный И.А., Нугуманова А.Б. Метод автоматического построения тезаурусов на основе статистической обработки текстов на естественном языке // Известия Томского политехнического университета. 2012. Т. 321. № 5. С. 125–130.
4. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. V. 60. N 5. P. 493–502. doi: 10.1108/00220410410560573
5. Zeng D., Wei D., Chau M., Wang F. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontiers. 2011. V. 13. N 1. P. 115–125. doi: 10.1007/s10796-010-9278-5
6. Harris Z.S. Distributional structure // Word. 1954. V. 10. N 2-3. P. 146–162. doi: 10.1080/00437956.1954.11659520
7. Sahlgren M. The distributional hypothesis // Rivista di Linguistica. 2008. V. 20. N 1. P. 33–53.
8. Melucci M., Piwowarski B. Quantum mechanics and information retrieval: From theory to application // Proc. 4th International Conference on the Theory of Information Retrieval, ICTIR 2013 2013. P. 1. (ACM International Conference Proceeding Series). doi: 10.1145/2499178.2499202
9. Trukhanov A., Platonov A., Bessmertny I. Using quantum probability for word embedding problem // CEUR Workshop Proceedings. 2020. V. 2590.
10. Bessmertny I.A., Huang X., Platonov A.V., Yu C., Koroleva J.A. Applying the Bell’s test to chinese texts // Entropy. 2020. V. 22. N 3. P. 275. doi: 10.3390/e22030275
11. Lund K., Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence // Behavior Research Methods, Instruments, and Computers. 1996. V. 28. N 2. P. 203–208. doi: 10.3758/BF03204766
12. Galofaro F., Toffano Z., Doan B.-L. A quantum-based semiotic model for textual semantics // Kybernetes. 2018. V. 47. N 2. P. 307–320. doi: 10.1108/K-05-2017-0187
13. Шакер А. Using bell test for realizing a quantum-like semantic model for text retrieval in arabic texts // Сборник тезисов докладов конгресса молодых ученых. 2020 [Электронный ресурс]. URL: https://kmu.itmo.ru/digests/article/4084. IET — 2020 (дата обращения: 14.12.2020).
14. Galofaro F., Doan B.-L., Toffano Z. Linguistics and quantum theory: epistemological perspectives // Proc. 19th IEEE International Conference on Computational Science and Engineering, 14th IEEE International Conference on Embedded and Ubiquitous Computing and 15th International Symposium on Distributed Computing and Applications to Business, Engineering and Science. 2016. P. 660–667. doi: 10.1109/CSE-EUC-DCABES.2016.257
15. Kartsaklis D. Compositional operators in distributional semantics // Springer Science Reviews. 2014. V. 2. N 1-2. P. 161–177. doi: 10.1007/s40362-014-0017-z
16. Cabello A. Violating Bell’s inequality beyond Cirel’son’s bound // Physical Review Letters. 2002. V. 88. N 6. P. 060403. doi: 10.1103/PhysRevLett.88.060403
17. Popescu S., Rohrlich D. Quantum nonlocality as an axiom // Foundations of Physics. 1994. V. 24. N 3. P. 379–385. doi: 10.1007/BF02058098
18. Bruza P.D., Woods J. Quantum collapse in semantic space: interpreting natural language argumentation // Proc. 2nd Quantum Interaction Symposium. 2008. P. 141–147.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2021 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика