doi: 10.17586/2226-1494-2024-24-6-1016-1023


УДК 004.89

Многозадачное обучение на основе префиксов для устойчивого текстового поиска

Маслюхин С.М., Посохов П.А., Скрыльников С.С., Махныткина О.В., Ивановская Т.Ю.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Маслюхин С.М., Посохов П.А., Скрыльников С.С., Махныткина О.В., Ивановская Т.Ю. Многозадачное обучение на основе префиксов для устойчивого текстового поиска // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 1016–1023 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-1016-1023


Аннотация
Введение. Экспоненциальный рост цифровой информации требует устойчивых методов текстового поиска, поскольку большинство методов направлено на решение конкретной задачи или домена, что ограничивает их использование. Решением в таком случае могут являться многозадачные модели, требующие использования методов разделения задач. Многие исследования изучают многозадачное обучение для улучшения обобщения и фокусируются на больших моделях. Вместе с тем в реальных задачах речевой аналитики, требующих поиска среди сотен миллионов векторов в реальном времени, более подходящими становятся модели меньшего размера. Метод. В работе представлен новый подход к повышению устойчивости многозадачных моделей текстового поиска на основе префиксов. Применяется контрастное обучение как для многозадачных, так и однозадачных моделей-энкодеров. Выполнено сравнение моделей на устойчивость и проанализирована эффективность различных стратегий использования подсказок, включая жесткие, представленные явными инструкциями на естественном языке (инструктивные префиксы), и мягкие подсказки разной длины, представленные специальными токенами модели (обучаемые префиксы) разной длины. Эксперименты выполнены с применением подсказок как к запросу и кандидату, так и отдельно к запросам, для повторного использования предварительно закодированных кандидатов в многозадачном поиске без значительной потери качества. Основные результаты. Проведено сравнение полученных результатов по метрикам R@1, R@5 и MRR, являющимися наиболее применимыми для оценки поисковых моделей внутри и вне домена обучения. Однозадачные модели показали себя лучше при работе с данными в пределах домена обучения. Многозадачные модели продемонстрировали лучшую применимость на данных вне домена обучения, что подчеркивает их повышенную устойчивость к его смене. Для сохранения этого свойства в данной работе рассмотрено применение префиксов к обоим элементам — запросу и документу, что обеспечивает лучшую устойчивость, чем их обособленное применение к запросу. Обучаемые префиксы оказались более предпочтительными по сравнению с инструктивными, поскольку они лучше адаптируют модель к различным доменам. Обсуждение. Результаты исследования могут быть полезны для улучшения моделей текстового поиска, особенно в сценариях, связанных с многозадачными системами, где требуется высокая адаптивность и производительность на новых данных. Обучаемые префиксы могут быть эффективным инструментом повышения устойчивости моделей в различных приложениях, таких как информационный поиск и системы вопросов-ответов.

Ключевые слова: контрастное обучение, текстовый поиск, многозадачное обучение, персона, методология сбора данных, диалоговые данные, разговорные агенты, персонализация, генерация вопросов и ответов

Благодарности. Исследование выполнено за счет гранта Российского научного фонда (22-11-00128, https://www.rscf.ru/ project/22-11-00128/).

Список литературы
  1. Hambarde K.A., Proença H. Information retrieval: recent advances and beyond // IEEE Access. 2023. V. 11. P. 76581–76604. https://doi.org/10.1109/access.2023.3295776
  2. Zhang W., Xiong C., Stratos K., Overwijk A. Improving multitask retrieval by promoting task specialization // Transactions of the Association for Computational Linguistics. 2023. V. 11. P. 1201–1212. https://doi.org/10.1162/tacl_a_00597
  3. Muennighoff N., Tazi N., Magne L., Reimers N. MTEB: Massive Text Embedding Benchmark // Proc. of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023. P. 2014–2037. https://doi.org/10.18653/v1/2023.eacl-main.148
  4. Thakur N., Reimers N., Rücklé A., Srivastava A., Gurevych I. BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models // Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2). 2021. P. 105.
  5. Muennighoff N., Su H., Wang L., Yang N., Wei F., Yu T., Singh A., Kiela D. Generative representational instruction tuning // arXiv. 2024. arXiv:2402.09906. https://doi.org/10.48550/arXiv.2402.09906
  6. Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks. Sentence-BERT // Proc. of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. P. 3982–3992. https://doi.org/10.18653/v1/d19-1410
  7. Wang L., Yang N., Huang X., Jiao B., Yang L., Jiang D., Majumder R., Wei F. Text embeddings by weakly-supervised contrastive pre-training // arXiv. 2024. arXiv:2212.03533. https://doi.org/10.48550/arXiv.2212.03533
  8. Chen T., Zhang M., Lu J., Bendersky M., Najork M. Out-of-Domain semantics to the rescue! Zero-shot hybrid retrieval models // Lecture Notes in Computer Science. 2022. V. 13185. P. 95–110. https://doi.org/10.1007/978-3-030-99736-6_7
  9. Ruder S. An overview of multi-task learning in deep neural networks // arXiv. 2017. arXiv:1706.05098. https://doi.org/10.48550/arXiv.1706.05098
  10. Maillard J., Karpukhin V., Petroni F., Yih W., Oğuz B., Stoyanov V., Ghosh G. Multi-task retrieval for knowledge-intensive tasks // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 1098–1111. https://doi.org/10.18653/v1/2021.acl-long.89
  11. Su H., Shi W., Kasai J., Wang Y., Hu Y., Ostendorf M., Yih W., Smith N.A., Zettlemoyer L., Yu T. One embedder, any task: Instruction-finetuned text embeddings // Findings of the Association for Computational Linguistics: ACL 2023. 2023. P. 1102–1121. https://doi.org/10.18653/v1/2023.findings-acl.71
  12. Li X.L., Liang P. Prefix-tuning: Optimizing continuous prompts for generation // Proc. of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Vol. 1. 2021. P. 4582–4597. https://doi.org/10.18653/v1/2021.acl-long.353
  13. Matveev Y., Makhnytkina O., Posokhov P., Matveev A., Skrylnikov S. Personalizing hybrid-based dialogue agents // Mathematics. 2022. V. 10. N 24. P. 4657. https://doi.org/10.3390/math10244657
  14. Posokhov P., Apanasovich K., Matveeva A., Makhnytkina O., Matveev A. Personalizing dialogue agents for Russian: Retrieve and refine // Proc. of the 31st Conference of Open Innovations Association (FRUCT). 2022. P. 245–252. https://doi.org/10.23919/fruct54823.2022.9770895
  15. Posokhov P., Matveeva A., Makhnytkina O., Matveev A., Matveev Y. Personalizing retrieval-based dialogue agents // Lecture Notes in Computer Science. 2022. V. 13721. P. 554–566. https://doi.org/10.1007/978-3-031-20980-2_47
  16. Wang L., Yang N., Huang X., Yang L., Majumder R., Wei F. Improving text embeddings with large language models // Proc. of the 62nd Annual Meeting of the Association for Computational Linguistics. Vol. 1. 2024. P. 11897–11916. https://doi.org/10.18653/v1/2024.acl-long.642
  17. Xu L., Xie H., Qin S.-Z.J., Tao X., Wang F.L. Parameter-efficient fine-tuning methods for pretrained language models: A critical review and assessment // arXiv. 2023. arXiv:2312.12148. https://doi.org/10.48550/arXiv.2312.12148


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика Рейтинг@Mail.ru