Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-999-1006
УДК 81'33
Хохлова М.В., Корышев М.В.
Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике
Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Хохлова М.В., Корышев М.В. Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 999–1006. doi: 10.17586/2226-1494-2024-24-6-999-1006
Аннотация
Введение. Появление систем генеративного искусственного интеллекта оказало значительное влияние на задачи, имеющие отношение к обработке естественного языка: машинный перевод, сентимент-анализ, генерация и суммаризация текстов и т. п. Цель работы заключалась в определении особенностей автоматически сгенерированных научных текстов по сравнению с текстами, созданными авторами, а также в оценке возможностей разных методов применительно к задаче их классификации. Метод. Выполнен анализ аннотаций двух типов: собранные из научных журналов по компьютерной лингвистике и по германистике, сгенерированные по заголовкам соответствующих научных статей при помощи Generative Pre-trained Transformer (ChatGPT-4o mini). Общий объем данных составил 60 единиц. Выбор тематики работ обусловлен тем, что тексты относятся к одной предметной области, но отличаются по своей структуре. Первая группа, в которую собраны оригинальные тексты по компьютерной лингвистике, схожа с аннотациями научных работ по информационным технологиям, и содержит большое количество англоязычной терминологии. Вторая группа содержит тексты по германистике и носит более описательно-нарративный характер. Проведен анализ отличий аннотаций двух типов, выполнена их классификация по двум типам с привлечением экспертов, трех систем-детекторов для определения участия искусственного интеллекта при создании текстов (Smodin, ZeroGPT и GPTZero), а также самой системой ChatGPT-4o mini. Основные результаты. Проведенный анализ показал, что сгенерированные тексты отличаются четкой формальной структурой и соблюдением правил построения научных текстов в соответствии с IMRAD (наличием введения, методов, результатов и заключения). Содержательно они носят поверхностный характер, в них не всегда соблюдается научный стиль, присутствуют повторы конструкций и перефразирование названий статей, что не встречается в аннотациях, написанных авторами без привлечения искусственного интеллекта. Автоматически сгенерированные аннотации нуждаются не только в дальнейшей редакторской правке (поскольку в ряде случаев нарушены лексическая и синтаксическая сочетаемость, присутствует неоднозначность), но и в проверке упоминаемых фактов и терминов. Среди систем-детекторов наиболее высокие показатели по метрикам precision, accuracy и F1-score достигаются системой Smodin, в то время как по критерию Recall лучшие результаты демонстрирует система ZeroGPT. Наиболее низкие результаты при оценке аннотаций при сравнении с другими инструментами были достигнуты системой ChatGPT-4o mini. Классификация с привлечением экспертов показала наиболее высокие результаты в случае аннотаций по германистике. Обсуждение. Полученные результаты могут быть полезны исследователям при работе с научными текстами по лингвистике, а также для дальнейшего дообучения нейросетевых моделей.
Ключевые слова: ChatGPT, генерация текстов, искусственный интеллект, аннотации, научные статьи
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.