Многозадачное обучение на основе префиксов для устойчивого текстового поиска

Маслюхин Сергей Михайлович, Посохов Павел Александрович , Скрыльников Степан Сергеевич, Махныткина Олеся Владимировна, Ивановская Татьяна Юрьевна

doi:10.17586/2226-1494-2024-24-6-1016-1023

2024 , ТОМ 24, НОМЕР 6 ( ноябрь-декабрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2024-24-6-1016-1023

УДК 004.89

Многозадачное обучение на основе префиксов для устойчивого текстового поиска

Маслюхин С.М., Посохов П.А., Скрыльников С.С., Махныткина О.В., Ивановская Т.Ю.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Маслюхин С.М., Посохов П.А., Скрыльников С.С., Махныткина О.В., Ивановская Т.Ю. Многозадачное обучение на основе префиксов для устойчивого текстового поиска // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 1016–1023 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-1016-1023

Аннотация

Введение. Экспоненциальный рост цифровой информации требует устойчивых методов текстового поиска, поскольку большинство методов направлено на решение конкретной задачи или домена, что ограничивает их использование. Решением в таком случае могут являться многозадачные модели, требующие использования методов разделения задач. Многие исследования изучают многозадачное обучение для улучшения обобщения и фокусируются на больших моделях. Вместе с тем в реальных задачах речевой аналитики, требующих поиска среди сотен миллионов векторов в реальном времени, более подходящими становятся модели меньшего размера. Метод. В работе представлен новый подход к повышению устойчивости многозадачных моделей текстового поиска на основе префиксов. Применяется контрастное обучение как для многозадачных, так и однозадачных моделей-энкодеров. Выполнено сравнение моделей на устойчивость и проанализирована эффективность различных стратегий использования подсказок, включая жесткие, представленные явными инструкциями на естественном языке (инструктивные префиксы), и мягкие подсказки разной длины, представленные специальными токенами модели (обучаемые префиксы) разной длины. Эксперименты выполнены с применением подсказок как к запросу и кандидату, так и отдельно к запросам, для повторного использования предварительно закодированных кандидатов в многозадачном поиске без значительной потери качества. Основные результаты. Проведено сравнение полученных результатов по метрикам R@1, R@5 и MRR, являющимися наиболее применимыми для оценки поисковых моделей внутри и вне домена обучения. Однозадачные модели показали себя лучше при работе с данными в пределах домена обучения. Многозадачные модели продемонстрировали лучшую применимость на данных вне домена обучения, что подчеркивает их повышенную устойчивость к его смене. Для сохранения этого свойства в данной работе рассмотрено применение префиксов к обоим элементам — запросу и документу, что обеспечивает лучшую устойчивость, чем их обособленное применение к запросу. Обучаемые префиксы оказались более предпочтительными по сравнению с инструктивными, поскольку они лучше адаптируют модель к различным доменам. Обсуждение. Результаты исследования могут быть полезны для улучшения моделей текстового поиска, особенно в сценариях, связанных с многозадачными системами, где требуется высокая адаптивность и производительность на новых данных. Обучаемые префиксы могут быть эффективным инструментом повышения устойчивости моделей в различных приложениях, таких как информационный поиск и системы вопросов-ответов.

Ключевые слова: контрастное обучение, текстовый поиск, многозадачное обучение, персона, методология сбора данных, диалоговые данные, разговорные агенты, персонализация, генерация вопросов и ответов

Благодарности. Исследование выполнено за счет гранта Российского научного фонда (22-11-00128, https://www.rscf.ru/ project/22-11-00128/).

Список литературы

Hambarde K.A., Proença H. Information retrieval: recent advances and beyond // IEEE Access. 2023. V. 11. P. 76581–76604. https://doi.org/10.1109/access.2023.3295776
Zhang W., Xiong C., Stratos K., Overwijk A. Improving multitask retrieval by promoting task specialization // Transactions of the Association for Computational Linguistics. 2023. V. 11. P. 1201–1212. https://doi.org/10.1162/tacl_a_00597
Muennighoff N., Tazi N., Magne L., Reimers N. MTEB: Massive Text Embedding Benchmark // Proc. of the 17^th Conference of the European Chapter of the Association for Computational Linguistics. 2023. P. 2014–2037. https://doi.org/10.18653/v1/2023.eacl-main.148
Thakur N., Reimers N., Rücklé A., Srivastava A., Gurevych I. BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models // Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021. P. 105.
Muennighoff N., Su H., Wang L., Yang N., Wei F., Yu T., Singh A., Kiela D. Generative representational instruction tuning // arXiv. 2024. arXiv:2402.09906. https://doi.org/10.48550/arXiv.2402.09906
Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks. Sentence-BERT // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9^th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 3982–3992. https://doi.org/10.18653/v1/d19-1410
Wang L., Yang N., Huang X., Jiao B., Yang L., Jiang D., Majumder R., Wei F. Text embeddings by weakly-supervised contrastive pre-training // arXiv. 2024. arXiv:2212.03533. https://doi.org/10.48550/arXiv.2212.03533
Chen T., Zhang M., Lu J., Bendersky M., Najork M. Out-of-Domain semantics to the rescue! Zero-shot hybrid retrieval models // Lecture Notes in Computer Science. 2022. V. 13185. P. 95–110. https://doi.org/10.1007/978-3-030-99736-6_7
Ruder S. An overview of multi-task learning in deep neural networks // arXiv. 2017. arXiv:1706.05098. https://doi.org/10.48550/arXiv.1706.05098
Maillard J., Karpukhin V., Petroni F., Yih W., Oğuz B., Stoyanov V., Ghosh G. Multi-task retrieval for knowledge-intensive tasks // Proc. of the 59^th Annual Meeting of the Association for Computational Linguistics and the 11^th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 1098–1111. https://doi.org/10.18653/v1/2021.acl-long.89
Su H., Shi W., Kasai J., Wang Y., Hu Y., Ostendorf M., Yih W., Smith N.A., Zettlemoyer L., Yu T. One embedder, any task: Instruction-finetuned text embeddings // Findings of the Association for Computational Linguistics: ACL 2023. 2023. P. 1102–1121. https://doi.org/10.18653/v1/2023.findings-acl.71
Li X.L., Liang P. Prefix-tuning: Optimizing continuous prompts for generation // Proc. of the 59^th Annual Meeting of the Association for Computational Linguistics and the 11^th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 4582–4597. https://doi.org/10.18653/v1/2021.acl-long.353
Matveev Y., Makhnytkina O., Posokhov P., Matveev A., Skrylnikov S. Personalizing hybrid-based dialogue agents // Mathematics. 2022. V. 10. N 24. P. 4657. https://doi.org/10.3390/math10244657
Posokhov P., Apanasovich K., Matveeva A., Makhnytkina O., Matveev A. Personalizing dialogue agents for Russian: Retrieve and refine // Proc. of the 31^stConference of Open Innovations Association (FRUCT). 2022. P. 245–252. https://doi.org/10.23919/fruct54823.2022.9770895
Posokhov P., Matveeva A., Makhnytkina O., Matveev A., Matveev Y. Personalizing retrieval-based dialogue agents // Lecture Notes in Computer Science. 2022. V. 13721. P. 554–566. https://doi.org/10.1007/978-3-031-20980-2_47
Wang L., Yang N., Huang X., Yang L., Majumder R., Wei F. Improving text embeddings with large language models // Proc. of the 62^nd Annual Meeting of the Association for Computational Linguistics. Vol. 1. 2024. P. 11897–11916. https://doi.org/10.18653/v1/2024.acl-long.642
Xu L., Xie H., Qin S.-Z.J., Tao X., Wang F.L. Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment // arXiv. 2023. arXiv:2312.12148. https://doi.org/10.48550/arXiv.2312.12148

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License