doi: 10.17586/2226-1494-2024-24-6-999-1006


УДК 81'33

Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике

Хохлова М.В., Корышев М.В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Хохлова М.В., Корышев М.В. Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 999–1006. doi: 10.17586/2226-1494-2024-24-6-999-1006


Аннотация
Введение. Появление систем генеративного искусственного интеллекта оказало значительное влияние на задачи, имеющие отношение к обработке естественного языка: машинный перевод, сентимент-анализ, генерация и суммаризация текстов и т. п. Цель работы заключалась в определении особенностей автоматически сгенерированных научных текстов по сравнению с текстами, созданными авторами, а также в оценке возможностей разных методов применительно к задаче их классификации. Метод. Выполнен анализ аннотаций двух типов: собранные из научных журналов по компьютерной лингвистике и по германистике, сгенерированные по заголовкам соответствующих научных статей при помощи Generative Pre-trained Transformer (ChatGPT-4o mini). Общий объем данных составил 60 единиц. Выбор тематики работ обусловлен тем, что тексты относятся к одной предметной области, но отличаются по своей структуре. Первая группа, в которую собраны оригинальные тексты по компьютерной лингвистике, схожа с аннотациями научных работ по информационным технологиям, и содержит большое количество англоязычной терминологии. Вторая группа содержит тексты по германистике и носит более описательно-нарративный характер. Проведен анализ отличий аннотаций двух типов, выполнена их классификация по двум типам с привлечением экспертов, трех систем-детекторов для определения участия искусственного интеллекта при создании текстов (Smodin, ZeroGPT и GPTZero), а также самой системой ChatGPT-4o mini. Основные результаты. Проведенный анализ показал, что сгенерированные тексты отличаются четкой формальной структурой и соблюдением правил построения научных текстов в соответствии с IMRAD (наличием введения, методов, результатов и заключения). Содержательно они носят поверхностный характер, в них не всегда соблюдается научный стиль, присутствуют повторы конструкций и перефразирование названий статей, что не встречается в аннотациях, написанных авторами без привлечения искусственного интеллекта. Автоматически сгенерированные аннотации нуждаются не только в дальнейшей редакторской правке (поскольку в ряде случаев нарушены лексическая и синтаксическая сочетаемость, присутствует неоднозначность), но и в проверке упоминаемых фактов и терминов. Среди систем-детекторов наиболее высокие показатели по метрикам precision, accuracy и F1-score достигаются системой Smodin, в то время как по критерию Recall лучшие результаты демонстрирует система ZeroGPT. Наиболее низкие результаты при оценке аннотаций при сравнении с другими инструментами были достигнуты системой ChatGPT-4o mini. Классификация с привлечением экспертов показала наиболее высокие результаты в случае аннотаций по германистике. Обсуждение. Полученные результаты могут быть полезны исследователям при работе с научными текстами по лингвистике, а также для дальнейшего дообучения нейросетевых моделей.

Ключевые слова: ChatGPT, генерация текстов, искусственный интеллект, аннотации, научные статьи

Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.

Список литературы
  1. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. of the 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings. 2013. P. 1–12.
  2. Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. P. 3111–3119.
  3. Orăsan C. ChatGPT for translators: a survey // Proc. of the First Workshop on NLP Tools and Resources for Translation and Interpreting Applications. 2023. P. 61–63.
  4. Castilho S., Mallon C.Q., Meister R., Yue S. 2023. Do online machine translation systems care for context? What about a GPT model? // Proc. of the 24th Annual Conference of the European Association for Machine Translation. 2023. P. 393–417.
  5. Rajpurkar P., Jia R., Liang P. Know what you don’t know: Unanswerable questions for SQuAD // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018. P. 784–789. https://doi.org/10.18653/v1/p18-2124
  6. Bahak H., Taheri F., Zojaji Z., Kazemi A. Evaluating ChatGPT as a question answering system: A comprehensive analysis and comparison with existing models // arXiv. 2023. arXiv:2312.07592. https://doi.org/10.48550/arXiv.2312.07592
  7. Alkaissi H., McFarlane S.I. Artificial hallucinations in ChatGPT: Implications in scientific writing // Cureus. 2023. V. 15. N 2. P. e35179. https://doi.org/10.7759/cureus.35179
  8. Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove // Nature. 2023. V. 613(7945). P. 620–621. https://doi.org/10.1038/d41586-023-00107-z
  9. Ide K., Hawke P., Nakayama T. Can ChatGPT be considered an author of a medical article? // Journal of Epidemiology. 2023. V. 33. N 7. P. 381–382. https://doi.org/10.2188/jea.JE20230030
  10. Dwivedi Y.K., Kshetri N., Hughes L., Slade E.L., Jeyaraj A., Kar A.K., Wright R. et al. Opinion Paper: “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy // International Journal of Information Management. 2023. V. 7. P. 102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642
  11. Tools such as ChatGPT threaten transparent science; here are our ground rules for their use // Nature. 2023. V. 613(7945). https://doi.org/10.1038/d41586-023-00191-1
  12. Rahman M., Terano H.J.R., Rahman N., Salamzadeh A., Rahaman S. ChatGPT and academic research: A review and recommendations based on practical examples // Journal of Education, Management and Development Studies. 2023.V. 3. N 1. P. 1–12. https://doi.org/10.52631/jemds.v3i1.175
  13. Herbold S., Hautli-Janisz A., Heuer U., Kikteva Z., Trautsch A. A large-scale comparison of human-written versus ChatGPT-generated essays // Scientific Reports. 2023. V. 13. N 1. P. 18617. https://doi.org/10.1038/s41598-023-45644-9
  14. Gao Y., Wang R., Hou F. How to design translation prompts for ChatGPT: An empirical study // arXiv. 2023. arXiv:2304.02182. https://doi.org/10.48550/arXiv.2304.02182
  15. Kolmogorova A.V., Margolina A.V.Written vs generated text: “naturalness” as a textual and psycholinguistic category// Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 2. C. 71–99. https://doi.org/10.18413/2313-8912-2024-10-2-0-4
  16. Черкасова М.Н., Тактарова А.В. Признаки сгенерированного текста в академическом дискурсе: проблема идентификации//Филологические науки. Вопросы теории и практики.2024. Т. 17. № 7.С. 2226–2232.https://doi.org/10.30853/phil20240307
  17. Aydın Ö., Karaarslan E. OpenAI ChatGPT generated literature review: Digital twin in healthcare // Emerging Computer Technologies 2. İzmir Akademi Dernegi, 2022. P. 22–31. https://doi.org/10.2139/ssrn.4308687
  18. Mindner L., Schlippe T., Schaaff K. Classification of human- and AI-generated texts: Investigating features for ChatGPT // Lecture Notes on Data Engineering and Communications Technologies. 2023. V. 190. P. 152–170. https://doi.org/10.1007/978-981-99-7947-9_12


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2025 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика