Меню
Публикации
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2025-25-4-710-717
УДК 004.89
K-sparse энкодер для эффективного информационного поиска
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Добрынин В.Ю. K-sparse энкодер для эффективного информационного поиска // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 4. С. 710–717. doi: 10.17586/2226-1494-2025-25-4-710-717
Аннотация
Введение. Современные промышленные поисковые системы, как правило, используют двухстадийный конвейер — быстрый отбор кандидатов и последующее ранжирование, что неизбежно ведет к потере части релевантных документов из-за простых алгоритмов на первой стадии. В работе предлагается одностадийный подход, сочетающий преимущества плотных моделей семантического поиска и эффективности инвертированных индексов. Ключевым компонентом решения является K-sparse энкодер, применяемый для преобразования плотных векторов в разреженные, совместимые с инвертированными индексами библиотеки Lucene. Метод. В отличие от ранее исследованного идентифицируемого вариационного автоэнкодера, предлагаемая модель основана на автоэнкодере с функцией активации TopK, которая явно фиксирует число ненулевых координат на этапе обучения. Такая функция активации делает процесс получения разреженного вектора дифференцируемым, устраняет необходимость постобработки и упрощает функцию потерь до суммы ошибки восстановления и компоненты, сохраняющей относительные расстояния между плотными и разреженными представлениями. Обучение выполнялось на подмножестве из 300 тыс. документов набора данных MS MARCO с использованием PyTorch и GPU NVIDIA L4. Основные результаты. Предложенная модель достигает 96,6 % качества исходной плотной модели по метрике NDCG@10 (0,57 против 0,59) на наборе данных SciFact при 80 % разреженности векторов. Дополнительно показано, что дальнейшее увеличение разреженности снижает объем индекса и ускоряет время поиска, сохраняя приемлемое качество поиска. По используемой памяти решение превосходит графовый алгоритм Hierarchical Navigable Small World, а по скорости приближается к нему при высоких уровнях разреженности. Обсуждение. Работа подтверждает применимость предложенного подхода для поиска неструктурированных данных. Прямое управление степенью разреженности дает возможность балансировать между качеством, задержкой поиска и требованиями к памяти. Благодаря использованию инвертированного индекса на базе библиотеки Lucene, предлагаемое решение может быть эффективно применено в промышленных поисковых системах. В качестве направлений дальнейших исследований рассматриваются интерпретируемость извлекаемых признаков и повышение качества поиска при значительной разреженности представлений.
Ключевые слова: информационный поиск, разреженные векторные представления, K-sparse автоэнкодер, функция активации TopK, инвертированный индекс, одностадийная архитектура
Список литературы
Список литературы
- Chen R., Gallagher L., Blanco R., Culpepper J.S. Efficient cost-aware cascade ranking in multi-stage retrieval // Proc. of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2017. P. 445–454. https://doi.org/10.1145/3077136.3080819
- Liu S., Xiao F., Ou W., Si L. Cascade ranking for operational E-commerce search // Proc. of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2017. P. 1557–1565. https://doi.org/10.1145/3097983.3098011
- Furnas G.W., Landauer T.K., Gomez L.M., Dumais S.T. The vocabulary problem in human-system communication // Communications of the ACM. 1987. V. 30. N 11. P. 964–971. https://doi.org/10.1145/32206.32212
- Zhao L., Callan J. Term necessity prediction // Proc. of the 19th ACM International Conference on Information and Knowledge Management. 2010. P. 259–268. https://doi.org/10.1145/1871437.1871474
- Zamani H., Dehghani M., Croft W.B., Learned-Miller E., Kamps J. From neural re-ranking to neural ranking: Learning a sparse representation for inverted indexing // Proc. of the 27th ACM International Conference on Information and Knowledge Management. 2018. P. 497–506. https://doi.org/10.1145/3269206.3271800
- Formal T., Piwowarski B., Clinchant S. SPLADE: Sparse lexical and expansion model for first stage ranking // Proc. of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2021. P. 2288–2292. https://doi.org/10.1145/3404835.3463098
- Dobrynin V., Sherman M., Abramovich R., Platonov A.A sparsifier model for efficient information retrieval // IEEE 18th International Conference on Application of Information and Communication Technologies (AICT). 2024. P. 1–4. https://doi.org/10.1109/aict61888.2024.10740301
- Dobrynin V.Yu., Abramovich R.K., Platonov A.V. Efficient sparse retrieval through embedding-based inverted index construction //Scientific and Technical Journal of Information Technologies, Mechanics and Optics.2025. V. 25. N 1. P. 61–67. https://doi.org/10.17586/2226-1494-2025-25-1-61-67
- Khemakhem I., Kingma D.P., Monti R.P.,Hyvarinen A. Variational autoencoders and nonlinear ICA: A unifying framework // Proc. of the 23rd International Conference on Artificial Intelligence and Statistics (AISTATS). 2020. V. 108. P. 2207–2216.
- Louizos C., Welling M., Kingma D.P. Learning sparse neural networks through L0 regularization // arXiv. 2017. arXiv:1712.01312. https://doi.org/10.48550/arXiv.1712.01312
- Makhzani A., Frey B. k-Sparse autoencoders // arXiv. 2013. arXiv:1312.5663. https://doi.org/10.48550/arXiv.1312.5663
- Gao L., Tour T.D., Tillman H., Goh G., Troll R., Radford A., Sutskever I., Leike J., Wu J. Scaling and evaluating sparse autoencoders // arXiv. 2024. arXiv:2406.04093. https://doi.org/10.48550/arXiv.2406.04093
- Bricken T., Templeton A., Batson J., Chen B., Jermyn A., Conerly T., et al. Towards monosemanticity: decomposing language models with dictionary learning // Transformer Circuits Thread. 2023.
- Paszke A., Gross S., Massa F., Lerer A., Bradbury J., Chanan G., et al. PyTorch: An imperative style, high-performance deep learning library // arXiv. 2019. arXiv:1912.01703. https://doi.org/10.48550/arXiv.1912.01703
- Bajaj P., Campos D., Craswell N., Deng L., Gao J., Liu X., et al. MS MARCO: A human generated MAchine Reading COmprehension dataset // arXiv. 2016. arXiv:1611.09268. https://doi.org/10.48550/arXiv.1611.09268
- Wadden D., Lin S., Lo K., Wang L.L., van Zuylen M., Cohan A., Hajishirzi H. Fact or fiction: verifying scientific claims // Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 7534–7550. https://doi.org/10.18653/v1/2020.emnlp-main.609
- Malkov Y., Yashunin D.A. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. V. 42. N 4. P. 824–836. https://doi.org/10.1109/TPAMI.2018.2889473