Оптимизация моделей дистилляции знаний для языковых моделей

Татарникова Татьяна Михайловна, Мокрецов Никита Сергеевич

doi:10.17586/2226-1494-2025-25-4-737-743

2025 , ТОМ 25, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2025-25-4-737-743

УДК 004.258

Оптимизация моделей дистилляции знаний для языковых моделей

Татарникова Т.М., Мокрецов Н.С.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Татарникова Т.М., Мокрецов Н.С. Оптимизация моделей дистилляции знаний для языковых моделей // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25,

№ 4. С. 737–743. doi: 10.17586/2226-1494-2025-25-4-737-743

Аннотация

Введение. Обсуждается проблема оптимизации больших нейронных сетей на примере языковых моделей. Размеры больших языковых моделей являются препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти. Одним из развиваемых направлений сжатия моделей больших нейронных сетей служит дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные в настоящее время методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях. Метод. Предлагаются методы, способствующие повышению качества дистилляции знаний применительно к языковым моделям: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Первый подход основан на передаче токенов учителя при обучении ученика на слои нейронной сети, для которых достигается экспоненциально убывающий порог измерений расхождения между распределениями вероятностей учителя и ученика. Второй подход предлагает уменьшение количества параметров в нейронной сети путем замены полносвязных слоев на низкоранговые, что позволяет снизить риск переобучения и ускорить процесс обучения. Показаны ограничения каждого метода при работе с длинными последовательностями. Предложено комбинировать методы для получения усовершенствованной модели классической дистилляции знаний для длинных последовательностей. Основные результаты. Применение комбинированного подхода к дистилляции знаний на длинных последовательностях позволило значительно сжать результирующую модель с небольшой потерей качества, а также ощутимо снизить затрачиваемую память GPU и время вывода ответа. Обсуждение. Взаимодополняющие подходы к оптимизации процесса передачи знаний и сжатию моделей показали лучшие результаты, чем выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация по отдельности. Таким образом, качество ответов усовершенствованной модели классической дистилляции знаний на длинных последовательностях показало 97 % качества полной донастройки и 98 % качества метода низкоранговой адаптации по показателям ROGUE-L и Perplexity, при учете того, что количество обучаемых параметров снижается на 99 % по сравнению с полной донастройкой и на 49 % в сравнении с низкоранговой адаптацией. Кроме того, использование памяти GPU в сравнении с этими же методами уменьшается на 75 % и 30 % соответственно, а время вывода ответа на 30 %. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.

Ключевые слова: большие языковые модели, длинные последовательности, нейронные сети, дистилляция знаний, модель учителя, модель ученика, выборочное вмешательство в процесс обучения, низкоранговая адаптация

Список литературы

Дудихин В.В., Кондрашов П.Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестник. 2024. № 105. C. 169–179. https://doi.org/10.55959/MSU2070-1381-105-2024-169-179
Кузнецов А.В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57. https://doi.org/10.17853/2587-6910-2022-05-53-57
Мокрецов Н.С., Татарникова Т.М. Алгоритм оптимизации моделей нейронных сетей для обработки текста на естественном языке // Прикладной искусственный интеллект: перспективы и риски: Сборник докладов Международной научной конференции. 2024. C. 280–282.
Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-efficient transfer learning for NLP // Proc. of the 36^th International Conference on Machine Learning. 2019. V. 97. P. 2790–2799.
Liao B., Meng Y., Monz C. Parameter-efficient fine-tuning without introducing new latency // Proc. of the 61^st Annual Meeting of the Association for Computational Linguistics. 2023. V. 1. P. 4242–4260. https://doi.org/10.18653/v1/2023.acl-long.233
Lv K., Yang Y., Liu T., Guo Q., Qiu X. Full parameter fine-tuning for large language models with limited resources // Proc. of the 62^nd Annual Meeting of the Association for Computational Linguistics. 2024. V. 1. P. 8187–8198. https://doi.org/10.18653/v1/2024.acl-long.445
Khurana A., Subramonyam H., Chilana P.K. Why and when LLM-based assistants can go wrong: investigating the effectiveness of prompt-based interactions for software help-seeking // Proc. of the 29^th International Conference on Intelligent User Interfaces. 2024. P. 288–303. https://doi.org/10.1145/3640543.3645200
Мокрецов Н.С., Татарникова Т.М. Оптимизация процесса обучения при ограниченном объеме вычислительных ресурсов // Международная конференция по мягким вычислениям и измерениям. 2024. Т. 1. C. 205–208.
Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. V. 35. P. 27730–27744.
Borgeaud S., Mensch A., Hoffmann J., Cai T., Rutherford E., Millican K., et al. Improving language models by retrieving from trillions of tokens // Proc. of the 39^th InternationalConference on Machine Learning. 2022. P. 2206–2240.
Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической суммаризации текста // Инженерный вестник Дона. 2020. № 10 (70). C. 142–159.
Швыров В.В., Капустин Д.А., Кущенко А.В., Сентяй Р.Н. Дообучение больших языковых моделей с использованием техники LoRA для решения задач статического анализа программного кода // Вестник Луганского государственного университета имени Владимира Даля. 2023. № 12 (78). C. 210–215.
Liu Z., Lin W., Shi Y., Zhao J. A robustly optimized BERT pre-training approach with post-training // Lecture Notes in Computer Science. 2021. V. 12869. P. 471–484. https://doi.org/10.1007/978-3-030-84186-7_31
Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: distilling BERT for natural language understanding // Findings of the Association for Computational Linguistics: EMNLP. 2020. P. 4163–4174. https://doi.org/10.18653/v1/2020.findings-emnlp.372

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License