doi: 10.17586/2226-1494-2024-24-6-999-1006


УДК 81'33

Хохлова М.В., Корышев М.В.
Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике



Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Хохлова М.В., Корышев М.В. Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 999–1006. doi: 10.17586/2226-1494-2024-24-6-999-1006


Аннотация
Введение. Появление систем генеративного искусственного интеллекта оказало значительное влияние на задачи, имеющие отношение к обработке естественного языка: машинный перевод, сентимент-анализ, генерация и суммаризация текстов и т. п. Цель работы заключалась в определении особенностей автоматически сгенерированных научных текстов по сравнению с текстами, созданными авторами, а также в оценке возможностей разных методов применительно к задаче их классификации. Метод. Выполнен анализ аннотаций двух типов: собранные из научных журналов по компьютерной лингвистике и по германистике, сгенерированные по заголовкам соответствующих научных статей при помощи Generative Pre-trained Transformer (ChatGPT-4o mini). Общий объем данных составил 60 единиц. Выбор тематики работ обусловлен тем, что тексты относятся к одной предметной области, но отличаются по своей структуре. Первая группа, в которую собраны оригинальные тексты по компьютерной лингвистике, схожа с аннотациями научных работ по информационным технологиям, и содержит большое количество англоязычной терминологии. Вторая группа содержит тексты по германистике и носит более описательно-нарративный характер. Проведен анализ отличий аннотаций двух типов, выполнена их классификация по двум типам с привлечением экспертов, трех систем-детекторов для определения участия искусственного интеллекта при создании текстов (Smodin, ZeroGPT и GPTZero), а также самой системой ChatGPT-4o mini. Основные результаты. Проведенный анализ показал, что сгенерированные тексты отличаются четкой формальной структурой и соблюдением правил построения научных текстов в соответствии с IMRAD (наличием введения, методов, результатов и заключения). Содержательно они носят поверхностный характер, в них не всегда соблюдается научный стиль, присутствуют повторы конструкций и перефразирование названий статей, что не встречается в аннотациях, написанных авторами без привлечения искусственного интеллекта. Автоматически сгенерированные аннотации нуждаются не только в дальнейшей редакторской правке (поскольку в ряде случаев нарушены лексическая и синтаксическая сочетаемость, присутствует неоднозначность), но и в проверке упоминаемых фактов и терминов. Среди систем-детекторов наиболее высокие показатели по метрикам precision, accuracy и F1-score достигаются системой Smodin, в то время как по критерию Recall лучшие результаты демонстрирует система ZeroGPT. Наиболее низкие результаты при оценке аннотаций при сравнении с другими инструментами были достигнуты системой ChatGPT-4o mini. Классификация с привлечением экспертов показала наиболее высокие результаты в случае аннотаций по германистике. Обсуждение. Полученные результаты могут быть полезны исследователям при работе с научными текстами по лингвистике, а также для дальнейшего дообучения нейросетевых моделей.

Ключевые слова: ChatGPT, генерация текстов, искусственный интеллект, аннотации, научные статьи

Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.

Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика