В. Ю. Добрынин

	K-sparse энкодер для эффективного информационного поиска

doi:10.17586/2226-1494-2025-25-4-710-717

2025 , ТОМ 25, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2025-25-4-710-717

УДК 004.89

В. Ю. Добрынин

K-sparse энкодер для эффективного информационного поиска

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Добрынин В.Ю. K-sparse энкодер для эффективного информационного поиска // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 4. С. 710–717. doi: 10.17586/2226-1494-2025-25-4-710-717

Аннотация

Введение. Современные промышленные поисковые системы, как правило, используют двухстадийный конвейер — быстрый отбор кандидатов и последующее ранжирование, что неизбежно ведет к потере части релевантных документов из-за простых алгоритмов на первой стадии. В работе предлагается одностадийный подход, сочетающий преимущества плотных моделей семантического поиска и эффективности инвертированных индексов. Ключевым компонентом решения является K-sparse энкодер, применяемый для преобразования плотных векторов в разреженные, совместимые с инвертированными индексами библиотеки Lucene. Метод. В отличие от ранее исследованного идентифицируемого вариационного автоэнкодера, предлагаемая модель основана на автоэнкодере с функцией активации TopK, которая явно фиксирует число ненулевых координат на этапе обучения. Такая функция активации делает процесс получения разреженного вектора дифференцируемым, устраняет необходимость постобработки и упрощает функцию потерь до суммы ошибки восстановления и компоненты, сохраняющей относительные расстояния между плотными и разреженными представлениями. Обучение выполнялось на подмножестве из 300 тыс. документов набора данных MS MARCO с использованием PyTorch и GPU NVIDIA L4. Основные результаты. Предложенная модель достигает 96,6 % качества исходной плотной модели по метрике NDCG@10 (0,57 против 0,59) на наборе данных SciFact при 80 % разреженности векторов. Дополнительно показано, что дальнейшее увеличение разреженности снижает объем индекса и ускоряет время поиска, сохраняя приемлемое качество поиска. По используемой памяти решение превосходит графовый алгоритм Hierarchical Navigable Small World, а по скорости приближается к нему при высоких уровнях разреженности. Обсуждение. Работа подтверждает применимость предложенного подхода для поиска неструктурированных данных. Прямое управление степенью разреженности дает возможность балансировать между качеством, задержкой поиска и требованиями к памяти. Благодаря использованию инвертированного индекса на базе библиотеки Lucene, предлагаемое решение может быть эффективно применено в промышленных поисковых системах. В качестве направлений дальнейших исследований рассматриваются интерпретируемость извлекаемых признаков и повышение качества поиска при значительной разреженности представлений.

Ключевые слова: информационный поиск, разреженные векторные представления, K-sparse автоэнкодер, функция активации TopK, инвертированный индекс, одностадийная архитектура

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License

В. Ю. Добрынин K-sparse энкодер для эффективного информационного поиска

В. Ю. Добрынин

K-sparse энкодер для эффективного информационного поиска