Меню
Публикации
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-991-998
УДК 004.89
Параметрический корпус русского языка RuParam
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Гращенков П.В., Паско Л.И., Студеникина К.А., Тихомиров М.М. Параметрический корпус русского языка RuParam // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 991–998. doi: 10.17586/2226-1494-2024-24-6-991-998
Аннотация
Введение. Основная функция больших языковых моделей заключается в наиболее точной имитации поведения носителей языка. Для того чтобы отслеживать прогресс в решении этой задачи при разработке моделей, а также сравнивать конкурирующие модели между собой, необходимо создание наборов данных для объективной оценки. Распространенный тип таких наборов данных — это корпуса лингвистической приемлемости. Создание таких корпусов основывается на гипотезе о том, что большие языковые модели, как и носители языка, должны быть способны отличать грамматичные предложения от неграмматичных, которые нарушают правила грамматики целевого языка или языков. Метод. В работе представлен новый параметрический корпус для русского языка RuParam. Корпус содержит 9,5 тыс. минимальных пар предложений, различающихся по грамматичности, где каждому верному предложению соответствует минимально отличающееся от него ошибочное. Источник неграмматичности в каждой паре сопровождается экспертной лингвистической разметкой. RuParam состоит из двух частей. В первой части используется новый для задачи тестирования больших языковых моделей источник данных — лексико-грамматические тесты по русскому языку как иностранному. Вторая часть состоит из модифицированных корпусных примеров, представляющих грамматические феномены, не входящие в программу преподавания русского языка как иностранного в силу своей сложности. Основные результаты. Проведенные эксперименты над моделями показали, что наиболее высокий результат достигается моделями, при обучении которых русскому языку уделялось максимально пристальное внимание на всех этапах обучения, от подготовки данных и токенизации до написания инструкций и обучения с подкреплением (прежде всего YandexGPT и GigaChat). Мультиязычные модели, для которых не было сделано специального акцента на русском языке, показали существенно более низкие результаты. Тем не менее, даже лучшие результаты моделей далеки от оценки людей, которые справляются с задачей практически со 100 % точностью. Обсуждение. Ранжирование моделей, полученное в ходе эксперимента, показывает, что разработанный корпус действительно отражает степень владения русским языком. Полученный рейтинг может быть полезен при выборе модели для решения задач обработки естественного языка, где требуется знание грамматики: например, построение морфологических и синтаксических парсеров. В дальнейшем предложенный корпус может быть использован для тестирования собственных моделей.
Ключевые слова: языковые корпуса, русский язык, большие языковые модели, усвоение иностранного языка, обработка
естественного языка, оценка приемлемости, универсальная грамматика
Благодарности. Работа выполнена при поддержке Программы развития Московского государственного университета имени М.В. Ломоносова, проект № 23-Ш02-10 «Языковая компетенция носителей естественного языка и нейросетевых моделей». Авторы благодарят студентов Отделения теоретической и прикладной лингвистики МГУ — Марию Кравчук и Даниила Бурмистрова – за существенную помощь в разметке корпуса. Авторы выражают благодарность краудсорсинговой платформе ABC Elementary (https://elementary.center/) за безвозмездное предоставление ресурсов для получения человеческих оценок.
Список литературы
Благодарности. Работа выполнена при поддержке Программы развития Московского государственного университета имени М.В. Ломоносова, проект № 23-Ш02-10 «Языковая компетенция носителей естественного языка и нейросетевых моделей». Авторы благодарят студентов Отделения теоретической и прикладной лингвистики МГУ — Марию Кравчук и Даниила Бурмистрова – за существенную помощь в разметке корпуса. Авторы выражают благодарность краудсорсинговой платформе ABC Elementary (https://elementary.center/) за безвозмездное предоставление ресурсов для получения человеческих оценок.
Список литературы
- Warstadt A., Singh A., Bowman S.R. Neural network acceptability judgments // Transactions of the Association for Computational Linguistics. 2019. V. 7. P. 625–641. https://doi.org/10.1162/tacl_a_00290
- Warstadt A., Parrish A., Liu H., Mohananey A., Peng W., Wang S.-F., Bowman S.R. BLiMP: The benchmark of linguistic minimal pairs for English // Transactions of the Association for Computational Linguistics. 2020. V. 8. P. 377–392. https://doi.org/10.1162/tacl_a_00321
- Mikhailov V., Shamardina T., Ryabinin M., Pestova A., Smurov I., Artemova E. RuCoLA: Russian Corpus of Linguistic Acceptability // Proc. of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022. P. 5207–5227. https://doi.org/10.18653/v1/2022.emnlp-main.348
- Taktasheva E., Bazhukov M., Koncha K., Fenogenova A., Artemova E., Mikhailov V. RuBLiMP: Russian benchmark of linguistic minimal pairs // Proc. of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024. P. 9268–9299.
- Volodina E., Mohammed Y.A., Klezl J. DaLAJ – a dataset for linguistic acceptability judgments for Swedish // Proc. of the 10th Workshop on Natural Language Processing for Computer Assisted Language Learning (NLP4CALL 2021). 2021. P. 28–37.
- Jentoft M., Samuel D. NoCoLA: The Norwegian corpus of linguistic acceptability // Proc. of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa). 2023. P. 610–617.
- Гращенков П.В. RuConst: Синтаксический корпус русского с разметкой по непосредственным составляющим // Вестник Московского университета. Серия 9. Филология. 2024. № 3. С. 94–112. https://doi.org/10.55959/MSU0130-0075-9-2024-47-03-7
- Ross J.R. Constraints on variables in syntax: PhD thesis / Massachusetts Institute of Technology. 1967. 523 p.
- Белова Д.Д., Вознесенская А.Ю., Герасимова А.А. и др. Русские острова в свете экспериментальных данных. М.: Буки Веди, 2021. 412 с.
- Chomsky N. Lectures on Government and Binding: The Pisa Lectures. Dordrecht: Walter de Gruyter GmbH & Company KG, 1981. 371 p.
- Schütze C., Sprouse J. Judgment data // Research Methods in Linguistics. Cambridge: Cambridge University Press, 2014. P. 27–50.
- Wang G., Cheng S., Zhan X., Li X., Song S., Liu Y. OpenChat: Advancing open-source language models with mixed-quality data // arXiv. 2023. arXiv:2309.11235. https://doi.org/10.48550/arXiv.2309.11235
- Grattafiori A., Dubey A., Jauhri A., Pandey A. et al. The Llama 3 Herd of Models // ArXiv. 2024. ArXiv:2407.21783. https://doi.org/10.48550/arXiv.2407.21783
- Devine P. Tagengo: A multilingual chat dataset // Proc. of the Fourth Workshop on Multilingual Representation Learning (MRL 2024). 2024. P. 106–113.
- Nikolich A., Korolev K., Shelmanov A. Vikhr: The family of open-source instruction-tuned large language models for Russian // arXiv. 2024. arXiv:2405.13929v2. https://doi.org/10.48550/arXiv.2405.13929