Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-1024-1034
УДК 004.896
Горбатовский А.В. и др.
Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов
Улучшение вопросно-ответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Горбатовский А.В., Разин А.Д., Алиев А.А., Ковальчук С.В. Улучшение вопросноответных систем в области программирования с дообучением языковых моделей на структурированных разнородных данных онлайн-форумов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 1024–1034 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-6-1024-1034
Аннотация
Введение. Тематические вопросно-ответные онлайн-форумы предметных сообществ, такие как Stack Overflow, сегодня становятся незаменим инструментом разработчиков программного обеспечения. Форумы обеспечивают быстрый и эффективный поиск решений и оперативный отклик сообщества. Современные большие языковые модели, обучаемые, в том числе, на данных таких форумов, обладают потенциалом для автоматизации ответов на тематические вопросы. Но часто языковые модели демонстрируют существенную ограниченность в сложных областях, таких как программирование из-за разнородности области и контекстов задаваемых вопросов. Метод. В работе представлен подход к решению проблемы разнородных данных на основе структурирования данных сложной предметной области. На первом этапе предлагается декомпозиция доступных данных форумов с выделением тематических подмножеств. Далее, для отдельных тематик происходит дообучение моделей, применяя обучение с подкреплением с человеческой обратной связью (Reinforcement Learning with Human Feedback, RLHF) с использованием пользовательских оценок доступных в данных. Для управления ансамблем дообученных моделей используется классификация вопросов с последующим выбором соответствующей модели. Основные результаты. Экспериментальные исследования были проведены на подмножестве вопросов, связанных с Python, из Stack Overflow, с использованием модели Llama 7B в качестве базовой языковой модели. Результаты исследований показали, что путем классификации вопросов возможно повысить производительность модели до +22,5 % по метрике Rouge. Кроме того, включение RLHF привело к дополнительному улучшению до +11,2 %. Для валидации этих результатов выполнена экспертная оценка сгенерированных ответов, которая подтвердила эффективность представленного подхода. Обсуждение. Исследование показывает, что путем структурирования данных онлайн-форумов и обработки неявной обратной связи возможно значительно улучшить производительность больших языковых моделей в таких сложных областях, характеризующихся высокой неоднородностью, как разработка программного обеспечения.
Ключевые слова: вопросно-ответные системы, обработка естественного языка, генерация естественного языка, предобученные
языковые модели, большие языковые модели, дообучение, разработка программного обеспечения
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-11-00272, https://rscf.ru/ project/24-11-00272/.
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-11-00272, https://rscf.ru/ project/24-11-00272/.