Меню
Публикации
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-6-999-1006
УДК 81'33
Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Хохлова М.В., Корышев М.В. Сравнительный анализ сгенерированных и оригинальных аннотаций научных статей по филологической тематике // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 6. С. 999–1006. doi: 10.17586/2226-1494-2024-24-6-999-1006
Аннотация
Введение. Появление систем генеративного искусственного интеллекта оказало значительное влияние на задачи, имеющие отношение к обработке естественного языка: машинный перевод, сентимент-анализ, генерация и суммаризация текстов и т. п. Цель работы заключалась в определении особенностей автоматически сгенерированных научных текстов по сравнению с текстами, созданными авторами, а также в оценке возможностей разных методов применительно к задаче их классификации. Метод. Выполнен анализ аннотаций двух типов: собранные из научных журналов по компьютерной лингвистике и по германистике, сгенерированные по заголовкам соответствующих научных статей при помощи Generative Pre-trained Transformer (ChatGPT-4o mini). Общий объем данных составил 60 единиц. Выбор тематики работ обусловлен тем, что тексты относятся к одной предметной области, но отличаются по своей структуре. Первая группа, в которую собраны оригинальные тексты по компьютерной лингвистике, схожа с аннотациями научных работ по информационным технологиям, и содержит большое количество англоязычной терминологии. Вторая группа содержит тексты по германистике и носит более описательно-нарративный характер. Проведен анализ отличий аннотаций двух типов, выполнена их классификация по двум типам с привлечением экспертов, трех систем-детекторов для определения участия искусственного интеллекта при создании текстов (Smodin, ZeroGPT и GPTZero), а также самой системой ChatGPT-4o mini. Основные результаты. Проведенный анализ показал, что сгенерированные тексты отличаются четкой формальной структурой и соблюдением правил построения научных текстов в соответствии с IMRAD (наличием введения, методов, результатов и заключения). Содержательно они носят поверхностный характер, в них не всегда соблюдается научный стиль, присутствуют повторы конструкций и перефразирование названий статей, что не встречается в аннотациях, написанных авторами без привлечения искусственного интеллекта. Автоматически сгенерированные аннотации нуждаются не только в дальнейшей редакторской правке (поскольку в ряде случаев нарушены лексическая и синтаксическая сочетаемость, присутствует неоднозначность), но и в проверке упоминаемых фактов и терминов. Среди систем-детекторов наиболее высокие показатели по метрикам precision, accuracy и F1-score достигаются системой Smodin, в то время как по критерию Recall лучшие результаты демонстрирует система ZeroGPT. Наиболее низкие результаты при оценке аннотаций при сравнении с другими инструментами были достигнуты системой ChatGPT-4o mini. Классификация с привлечением экспертов показала наиболее высокие результаты в случае аннотаций по германистике. Обсуждение. Полученные результаты могут быть полезны исследователям при работе с научными текстами по лингвистике, а также для дальнейшего дообучения нейросетевых моделей.
Ключевые слова: ChatGPT, генерация текстов, искусственный интеллект, аннотации, научные статьи
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.
Список литературы
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 24-28-00937, https://rscf.ru/ project/24-28-00937/.
Список литературы
- Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. of the 1st International Conference on Learning Representations, ICLR 2013 - Workshop Track Proceedings. 2013. P. 1–12.
- Mikolov T., Sutskever I., Chen K., Corrado G.S., Dean J. Distributed representations of words and phrases and their compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. P. 3111–3119.
- Orăsan C. ChatGPT for translators: a survey // Proc. of the First Workshop on NLP Tools and Resources for Translation and Interpreting Applications. 2023. P. 61–63.
- Castilho S., Mallon C.Q., Meister R., Yue S. 2023. Do online machine translation systems care for context? What about a GPT model? // Proc. of the 24th Annual Conference of the European Association for Machine Translation. 2023. P. 393–417.
- Rajpurkar P., Jia R., Liang P. Know what you don’t know: Unanswerable questions for SQuAD // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2018. P. 784–789. https://doi.org/10.18653/v1/p18-2124
- Bahak H., Taheri F., Zojaji Z., Kazemi A. Evaluating ChatGPT as a question answering system: A comprehensive analysis and comparison with existing models // arXiv. 2023. arXiv:2312.07592. https://doi.org/10.48550/arXiv.2312.07592
- Alkaissi H., McFarlane S.I. Artificial hallucinations in ChatGPT: Implications in scientific writing // Cureus. 2023. V. 15. N 2. P. e35179. https://doi.org/10.7759/cureus.35179
- Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove // Nature. 2023. V. 613(7945). P. 620–621. https://doi.org/10.1038/d41586-023-00107-z
- Ide K., Hawke P., Nakayama T. Can ChatGPT be considered an author of a medical article? // Journal of Epidemiology. 2023. V. 33. N 7. P. 381–382. https://doi.org/10.2188/jea.JE20230030
- Dwivedi Y.K., Kshetri N., Hughes L., Slade E.L., Jeyaraj A., Kar A.K., Wright R. et al. Opinion Paper: “So what if ChatGPT wrote it?” Multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy // International Journal of Information Management. 2023. V. 7. P. 102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642
- Tools such as ChatGPT threaten transparent science; here are our ground rules for their use // Nature. 2023. V. 613(7945). https://doi.org/10.1038/d41586-023-00191-1
- Rahman M., Terano H.J.R., Rahman N., Salamzadeh A., Rahaman S. ChatGPT and academic research: A review and recommendations based on practical examples // Journal of Education, Management and Development Studies. 2023.V. 3. N 1. P. 1–12. https://doi.org/10.52631/jemds.v3i1.175
- Herbold S., Hautli-Janisz A., Heuer U., Kikteva Z., Trautsch A. A large-scale comparison of human-written versus ChatGPT-generated essays // Scientific Reports. 2023. V. 13. N 1. P. 18617. https://doi.org/10.1038/s41598-023-45644-9
- Gao Y., Wang R., Hou F. How to design translation prompts for ChatGPT: An empirical study // arXiv. 2023. arXiv:2304.02182. https://doi.org/10.48550/arXiv.2304.02182
- Kolmogorova A.V., Margolina A.V.Written vs generated text: “naturalness” as a textual and psycholinguistic category// Научный результат. Вопросы теоретической и прикладной лингвистики. 2024. Т. 10. № 2. C. 71–99. https://doi.org/10.18413/2313-8912-2024-10-2-0-4
- Черкасова М.Н., Тактарова А.В. Признаки сгенерированного текста в академическом дискурсе: проблема идентификации//Филологические науки. Вопросы теории и практики.2024. Т. 17. № 7.С. 2226–2232.https://doi.org/10.30853/phil20240307
- Aydın Ö., Karaarslan E. OpenAI ChatGPT generated literature review: Digital twin in healthcare // Emerging Computer Technologies 2. İzmir Akademi Dernegi, 2022. P. 22–31. https://doi.org/10.2139/ssrn.4308687
- Mindner L., Schlippe T., Schaaff K. Classification of human- and AI-generated texts: Investigating features for ChatGPT // Lecture Notes on Data Engineering and Communications Technologies. 2023. V. 190. P. 152–170. https://doi.org/10.1007/978-981-99-7947-9_12