Параметрический корпус русского языка RuParam

Гращенков Павел Валерьевич, Паско Лада Игоревна, Студеникина Ксения Андреевна , Тихомиров Михаил Михайлович

doi:10.17586/2226-1494-2024-24-6-991-998

2024 , ТОМ 24, НОМЕР 6 ( ноябрь-декабрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2024-24-6-991-998

УДК 004.89

Параметрический корпус русского языка RuParam

Гращенков П.В., Паско Л.И., Студеникина К.А., Тихомиров М.М.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Гращенков П.В., Паско Л.И., Студеникина К.А., Тихомиров М.М. Параметрический корпус русского языка RuParam // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 991–998. doi: 10.17586/2226-1494-2024-24-6-991-998

Аннотация

Введение. Основная функция больших языковых моделей заключается в наиболее точной имитации поведения носителей языка. Для того чтобы отслеживать прогресс в решении этой задачи при разработке моделей, а также сравнивать конкурирующие модели между собой, необходимо создание наборов данных для объективной оценки. Распространенный тип таких наборов данных — это корпуса лингвистической приемлемости. Создание таких корпусов основывается на гипотезе о том, что большие языковые модели, как и носители языка, должны быть способны отличать грамматичные предложения от неграмматичных, которые нарушают правила грамматики целевого языка или языков. Метод. В работе представлен новый параметрический корпус для русского языка RuParam. Корпус содержит 9,5 тыс. минимальных пар предложений, различающихся по грамматичности, где каждому верному предложению соответствует минимально отличающееся от него ошибочное. Источник неграмматичности в каждой паре сопровождается экспертной лингвистической разметкой. RuParam состоит из двух частей. В первой части используется новый для задачи тестирования больших языковых моделей источник данных — лексико-грамматические тесты по русскому языку как иностранному. Вторая часть состоит из модифицированных корпусных примеров, представляющих грамматические феномены, не входящие в программу преподавания русского языка как иностранного в силу своей сложности. Основные результаты. Проведенные эксперименты над моделями показали, что наиболее высокий результат достигается моделями, при обучении которых русскому языку уделялось максимально пристальное внимание на всех этапах обучения, от подготовки данных и токенизации до написания инструкций и обучения с подкреплением (прежде всего YandexGPT и GigaChat). Мультиязычные модели, для которых не было сделано специального акцента на русском языке, показали существенно более низкие результаты. Тем не менее, даже лучшие результаты моделей далеки от оценки людей, которые справляются с задачей практически со 100 % точностью. Обсуждение. Ранжирование моделей, полученное в ходе эксперимента, показывает, что разработанный корпус действительно отражает степень владения русским языком. Полученный рейтинг может быть полезен при выборе модели для решения задач обработки естественного языка, где требуется знание грамматики: например, построение морфологических и синтаксических парсеров. В дальнейшем предложенный корпус может быть использован для тестирования собственных моделей.

Ключевые слова: языковые корпуса, русский язык, большие языковые модели, усвоение иностранного языка, обработка естественного языка, оценка приемлемости, универсальная грамматика

Благодарности. Работа выполнена при поддержке Программы развития Московского государственного университета имени М.В. Ломоносова, проект № 23-Ш02-10 «Языковая компетенция носителей естественного языка и нейросетевых моделей». Авторы благодарят студентов Отделения теоретической и прикладной лингвистики МГУ — Марию Кравчук и Даниила Бурмистрова – за существенную помощь в разметке корпуса. Авторы выражают благодарность краудсорсинговой платформе ABC Elementary (https://elementary.center/) за безвозмездное предоставление ресурсов для получения человеческих оценок.

Список литературы

Warstadt A., Singh A., Bowman S.R. Neural network acceptability judgments // Transactions of the Association for Computational Linguistics. 2019. V. 7. P. 625–641. https://doi.org/10.1162/tacl_a_00290
Warstadt A., Parrish A., Liu H., Mohananey A., Peng W., Wang S.-F., Bowman S.R. BLiMP: The benchmark of linguistic minimal pairs for English // Transactions of the Association for Computational Linguistics. 2020. V. 8. P. 377–392. https://doi.org/10.1162/tacl_a_00321
Mikhailov V., Shamardina T., Ryabinin M., Pestova A., Smurov I., Artemova E. RuCoLA: Russian Corpus of Linguistic Acceptability // Proc. of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022. P. 5207–5227. https://doi.org/10.18653/v1/2022.emnlp-main.348
Taktasheva E., Bazhukov M., Koncha K., Fenogenova A., Artemova E., Mikhailov V. RuBLiMP: Russian benchmark of linguistic minimal pairs // Proc. of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024. P. 9268–9299.
Volodina E., Mohammed Y.A., Klezl J. DaLAJ – a dataset for linguistic acceptability judgments for Swedish // Proc. of the 10^th Workshop on Natural Language Processing for Computer Assisted Language Learning (NLP4CALL 2021). 2021. P. 28–37.
Jentoft M., Samuel D. NoCoLA: The Norwegian corpus of linguistic acceptability // Proc. of the 24^th Nordic Conference on Computational Linguistics (NoDaLiDa). 2023. P. 610–617.
Гращенков П.В. RuConst: Синтаксический корпус русского с разметкой по непосредственным составляющим // Вестник Московского университета. Серия 9. Филология. 2024. № 3. С. 94–112. https://doi.org/10.55959/MSU0130-0075-9-2024-47-03-7
Ross J.R. Constraints on variables in syntax: PhD thesis / Massachusetts Institute of Technology. 1967. 523 p.
Белова Д.Д., Вознесенская А.Ю., Герасимова А.А. и др. Русские острова в свете экспериментальных данных. М.: Буки Веди, 2021. 412 с.
Chomsky N. Lectures on Government and Binding: The Pisa Lectures. Dordrecht: Walter de Gruyter GmbH & Company KG, 1981. 371 p.
Schütze C., Sprouse J. Judgment data // Research Methods in Linguistics. Cambridge: Cambridge University Press, 2014. P. 27–50.
Wang G., Cheng S., Zhan X., Li X., Song S., Liu Y. OpenChat: Advancing open-source language models with mixed-quality data // arXiv. 2023. arXiv:2309.11235. https://doi.org/10.48550/arXiv.2309.11235
Grattafiori A., Dubey A., Jauhri A., Pandey A. et al. The Llama 3 Herd of Models // ArXiv. 2024. ArXiv:2407.21783. https://doi.org/10.48550/arXiv.2407.21783
Devine P. Tagengo: A multilingual chat dataset // Proc. of the Fourth Workshop on Multilingual Representation Learning (MRL 2024). 2024. P. 106–113.
Nikolich A., Korolev K., Shelmanov A. Vikhr: The family of open-source instruction-tuned large language models for Russian // arXiv. 2024. arXiv:2405.13929v2. https://doi.org/10.48550/arXiv.2405.13929

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License