doi: 10.17586/2226-1494-2025-25-4-710-717


УДК 004.89

K-sparse энкодер для эффективного информационного поиска

Добрынин В.Ю.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Добрынин В.Ю. K-sparse энкодер для эффективного информационного поиска // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 4. С. 710–717. doi: 10.17586/2226-1494-2025-25-4-710-717


Аннотация
Введение. Современные промышленные поисковые системы, как правило, используют двухстадийный конвейер — быстрый отбор кандидатов и последующее ранжирование, что неизбежно ведет к потере части релевантных документов из-за простых алгоритмов на первой стадии. В работе предлагается одностадийный подход, сочетающий преимущества плотных моделей семантического поиска и эффективности инвертированных индексов. Ключевым компонентом решения является K-sparse энкодер, применяемый для преобразования плотных векторов в разреженные, совместимые с инвертированными индексами библиотеки Lucene. Метод. В отличие от ранее исследованного идентифицируемого вариационного автоэнкодера, предлагаемая модель основана на автоэнкодере с функцией активации TopK, которая явно фиксирует число ненулевых координат на этапе обучения. Такая функция активации делает процесс получения разреженного вектора дифференцируемым, устраняет необходимость постобработки и упрощает функцию потерь до суммы ошибки восстановления и компоненты, сохраняющей относительные расстояния между плотными и разреженными представлениями. Обучение выполнялось на подмножестве из 300 тыс. документов набора данных MS MARCO с использованием PyTorch и GPU NVIDIA L4. Основные результаты. Предложенная модель достигает 96,6 % качества исходной плотной модели по метрике NDCG@10 (0,57 против 0,59) на наборе данных SciFact при 80 % разреженности векторов. Дополнительно показано, что дальнейшее увеличение разреженности снижает объем индекса и ускоряет время поиска, сохраняя приемлемое качество поиска. По используемой памяти решение превосходит графовый алгоритм Hierarchical Navigable Small World, а по скорости приближается к нему при высоких уровнях разреженности. Обсуждение. Работа подтверждает применимость предложенного подхода для поиска неструктурированных данных. Прямое управление степенью разреженности дает возможность балансировать между качеством, задержкой поиска и требованиями к памяти. Благодаря использованию инвертированного индекса на базе библиотеки Lucene, предлагаемое решение может быть эффективно применено в промышленных поисковых системах. В качестве направлений дальнейших исследований рассматриваются интерпретируемость извлекаемых признаков и повышение качества поиска при значительной разреженности представлений.

Ключевые слова: информационный поиск, разреженные векторные представления, K-sparse автоэнкодер, функция активации TopK, инвертированный индекс, одностадийная архитектура

Список литературы
  1. Chen R., Gallagher L., Blanco R., Culpepper J.S. Efficient cost-aware cascade ranking in multi-stage retrieval // Proc. of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2017. P. 445–454. https://doi.org/10.1145/3077136.3080819
  2. Liu S., Xiao F., Ou W., Si L. Cascade ranking for operational E-commerce search // Proc. of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017. P. 1557–1565. https://doi.org/10.1145/3097983.3098011
  3. Furnas G.W., Landauer T.K., Gomez L.M., Dumais S.T. The vocabulary problem in human-system communication // Communications of the ACM. 1987. V. 30. N 11. P. 964–971. https://doi.org/10.1145/32206.32212
  4. Zhao L., Callan J. Term necessity prediction // Proc. of the 19th ACM International Conference on Information and Knowledge Management. 2010. P. 259–268. https://doi.org/10.1145/1871437.1871474
  5. Zamani H., Dehghani M., Croft W.B., Learned-Miller E., Kamps J. From neural re-ranking to neural ranking: Learning a sparse representation for inverted indexing // Proc. of the 27th ACM International Conference on Information and Knowledge Management. 2018. P. 497–506. https://doi.org/10.1145/3269206.3271800
  6. Formal T., Piwowarski B., Clinchant S. SPLADE: Sparse lexical and expansion model for first stage ranking // Proc. of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2288–2292. https://doi.org/10.1145/3404835.3463098
  7. Dobrynin V., Sherman M., Abramovich R., Platonov A.A sparsifier model for efficient information retrieval // IEEE 18th International Conference on Application of Information and Communication Technologies (AICT). 2024. P. 1–4. https://doi.org/10.1109/aict61888.2024.10740301
  8. Dobrynin V.Yu., Abramovich R.K., Platonov A.V. Efficient sparse retrieval through embedding-based inverted index construction //Scientific and Technical Journal of Information Technologies, Mechanics and Optics.2025. V. 25. N 1. P. 61–67. https://doi.org/10.17586/2226-1494-2025-25-1-61-67
  9. Khemakhem I., Kingma D.P., Monti R.P.,Hyvarinen A. Variational autoencoders and nonlinear ICA: A unifying framework // Proc. of the 23rd International Conference on Artificial Intelligence and Statistics (AISTATS). 2020. V. 108. P. 2207–2216.
  10. Louizos C., Welling M., Kingma D.P. Learning sparse neural networks through L0 regularization // arXiv. 2017. arXiv:1712.01312. https://doi.org/10.48550/arXiv.1712.01312
  11. Makhzani A., Frey B. k-Sparse autoencoders // arXiv. 2013. arXiv:1312.5663. https://doi.org/10.48550/arXiv.1312.5663
  12. Gao L., Tour T.D., Tillman H., Goh G., Troll R., Radford A., Sutskever I., Leike J., Wu J. Scaling and evaluating sparse autoencoders // arXiv. 2024. arXiv:2406.04093. https://doi.org/10.48550/arXiv.2406.04093
  13. Bricken T., Templeton A., Batson J., Chen B., Jermyn A., Conerly T., et al. Towards monosemanticity: decomposing language models with dictionary learning // Transformer Circuits Thread. 2023.
  14. Paszke A., Gross S., Massa F., Lerer A., Bradbury J., Chanan G., et al. PyTorch: An imperative style, high-performance deep learning library // arXiv. 2019. arXiv:1912.01703. https://doi.org/10.48550/arXiv.1912.01703
  15. Bajaj P., Campos D., Craswell N., Deng L., Gao J., Liu X., et al. MS MARCO: A human generated MAchine Reading COmprehension dataset // arXiv. 2016. arXiv:1611.09268. https://doi.org/10.48550/arXiv.1611.09268
  16. Wadden D., Lin S., Lo K., Wang L.L., van Zuylen M., Cohan A., Hajishirzi H. Fact or fiction: verifying scientific claims // Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 7534–7550. https://doi.org/10.18653/v1/2020.emnlp-main.609
  17. Malkov Y., Yashunin D.A. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. V. 42. N 4. P. 824–836. https://doi.org/10.1109/TPAMI.2018.2889473


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика