doi: 10.17586/2226-1494-2024-24-6-991-998


УДК 004.89

Гращенков П.В., Паско Л.И., Студеникина К.А., Тихомиров М.М.
Параметрический корпус русского языка RuParam



Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Гращенков П.В., Паско Л.И., Студеникина К.А., Тихомиров М.М. Параметрический корпус русского языка RuParam // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 991–998. doi: 10.17586/2226-1494-2024-24-6-991-998


Аннотация
Введение. Основная функция больших языковых моделей заключается в наиболее точной имитации поведения носителей языка. Для того чтобы отслеживать прогресс в решении этой задачи при разработке моделей, а также сравнивать конкурирующие модели между собой, необходимо создание наборов данных для объективной оценки. Распространенный тип таких наборов данных — это корпуса лингвистической приемлемости. Создание таких корпусов основывается на гипотезе о том, что большие языковые модели, как и носители языка, должны быть способны отличать грамматичные предложения от неграмматичных, которые нарушают правила грамматики целевого языка или языков. Метод. В работе представлен новый параметрический корпус для русского языка RuParam. Корпус содержит 9,5 тыс. минимальных пар предложений, различающихся по грамматичности, где каждому верному предложению соответствует минимально отличающееся от него ошибочное. Источник неграмматичности в каждой паре сопровождается экспертной лингвистической разметкой. RuParam состоит из двух частей. В первой части используется новый для задачи тестирования больших языковых моделей источник данных — лексико-грамматические тесты по русскому языку как иностранному. Вторая часть состоит из модифицированных корпусных примеров, представляющих грамматические феномены, не входящие в программу преподавания русского языка как иностранного в силу своей сложности. Основные результаты. Проведенные эксперименты над моделями показали, что наиболее высокий результат достигается моделями, при обучении которых русскому языку уделялось максимально пристальное внимание на всех этапах обучения, от подготовки данных и токенизации до написания инструкций и обучения с подкреплением (прежде всего YandexGPT и GigaChat). Мультиязычные модели, для которых не было сделано специального акцента на русском языке, показали существенно более низкие результаты. Тем не менее, даже лучшие результаты моделей далеки от оценки людей, которые справляются с задачей практически со 100 % точностью. Обсуждение. Ранжирование моделей, полученное в ходе эксперимента, показывает, что разработанный корпус действительно отражает степень владения русским языком. Полученный рейтинг может быть полезен при выборе модели для решения задач обработки естественного языка, где требуется знание грамматики: например, построение морфологических и синтаксических парсеров. В дальнейшем предложенный корпус может быть использован для тестирования собственных моделей.

Ключевые слова: языковые корпуса, русский язык, большие языковые модели, усвоение иностранного языка, обработка естественного языка, оценка приемлемости, универсальная грамматика

Благодарности. Работа выполнена при поддержке Программы развития Московского государственного университета имени М.В. Ломоносова, проект № 23-Ш02-10 «Языковая компетенция носителей естественного языка и нейросетевых моделей». Авторы благодарят студентов Отделения теоретической и прикладной лингвистики МГУ — Марию Кравчук и Даниила Бурмистрова – за существенную помощь в разметке корпуса. Авторы выражают благодарность краудсорсинговой платформе ABC Elementary (https://elementary.center/) за безвозмездное предоставление ресурсов для получения человеческих оценок.

Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика