Меню
Публикации
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2025-25-4-737-743
УДК 004.258
Оптимизация моделей дистилляции знаний для языковых моделей
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Татарникова Т.М., Мокрецов Н.С. Оптимизация моделей дистилляции знаний для языковых моделей // Научно-технический вестник информационных технологий, механики и оптики. 2025. Т. 25,
№ 4. С. 737–743. doi: 10.17586/2226-1494-2025-25-4-737-743
Аннотация
Введение. Обсуждается проблема оптимизации больших нейронных сетей на примере языковых моделей. Размеры больших языковых моделей являются препятствием для их практического применения в условиях ограниченных объемов вычислительных ресурсов и памяти. Одним из развиваемых направлений сжатия моделей больших нейронных сетей служит дистилляция знаний — передача знаний от большой модели учителя к меньшей модели ученика без существенной потери точности результата. Известные в настоящее время методы дистилляции знаний имеют определенные недостатки: неточная передача знаний, долгий процесс обучения, накапливание ошибки в длинных последовательностях. Метод. Предлагаются методы, способствующие повышению качества дистилляции знаний применительно к языковым моделям: выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация. Первый подход основан на передаче токенов учителя при обучении ученика на слои нейронной сети, для которых достигается экспоненциально убывающий порог измерений расхождения между распределениями вероятностей учителя и ученика. Второй подход предлагает уменьшение количества параметров в нейронной сети путем замены полносвязных слоев на низкоранговые, что позволяет снизить риск переобучения и ускорить процесс обучения. Показаны ограничения каждого метода при работе с длинными последовательностями. Предложено комбинировать методы для получения усовершенствованной модели классической дистилляции знаний для длинных последовательностей. Основные результаты. Применение комбинированного подхода к дистилляции знаний на длинных последовательностях позволило значительно сжать результирующую модель с небольшой потерей качества, а также ощутимо снизить затрачиваемую память GPU и время вывода ответа. Обсуждение. Взаимодополняющие подходы к оптимизации процесса передачи знаний и сжатию моделей показали лучшие результаты, чем выборочное вмешательство учителя в процесс обучения ученика и низкоранговая адаптация по отдельности. Таким образом, качество ответов усовершенствованной модели классической дистилляции знаний на длинных последовательностях показало 97 % качества полной донастройки и 98 % качества метода низкоранговой адаптации по показателям ROGUE-L и Perplexity, при учете того, что количество обучаемых параметров снижается на 99 % по сравнению с полной донастройкой и на 49 % в сравнении с низкоранговой адаптацией. Кроме того, использование памяти GPU в сравнении с этими же методами уменьшается на 75 % и 30 % соответственно, а время вывода ответа на 30 %. Предложенная комбинация методов дистилляции знаний может найти применение в задачах с ограниченными вычислительными ресурсами.
Ключевые слова: большие языковые модели, длинные последовательности, нейронные сети, дистилляция знаний, модель учителя, модель ученика, выборочное вмешательство в процесс обучения, низкоранговая адаптация
Список литературы
Список литературы
- Дудихин В.В., Кондрашов П.Е. Методология использования больших языковых моделей для решения задач государственного и муниципального управления по интеллектуальному реферированию и автоматическому формированию текстового контента // Государственное управление. Электронный вестник. 2024. № 105. C. 169–179. https://doi.org/10.55959/MSU2070-1381-105-2024-169-179
- Кузнецов А.В. Цифровая история и искусственный интеллект: перспективы и риски применения больших языковых моделей // Новые информационные технологии в образовании и науке. 2022. № 5. С. 53–57. https://doi.org/10.17853/2587-6910-2022-05-53-57
- Мокрецов Н.С., Татарникова Т.М. Алгоритм оптимизации моделей нейронных сетей для обработки текста на естественном языке // Прикладной искусственный интеллект: перспективы и риски: Сборник докладов Международной научной конференции. 2024. C. 280–282.
- Houlsby N., Giurgiu A., Jastrzebski S., Morrone B., Laroussilhe Q., Gesmundo A., Attariyan M., Gelly S. Parameter-efficient transfer learning for NLP // Proc. of the 36th International Conference on Machine Learning. 2019. V. 97. P. 2790–2799.
- Liao B., Meng Y., Monz C. Parameter-efficient fine-tuning without introducing new latency // Proc. of the 61st Annual Meeting of the Association for Computational Linguistics. 2023. V. 1. P. 4242–4260. https://doi.org/10.18653/v1/2023.acl-long.233
- Lv K., Yang Y., Liu T., Guo Q., Qiu X. Full parameter fine-tuning for large language models with limited resources // Proc. of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024. V. 1. P. 8187–8198. https://doi.org/10.18653/v1/2024.acl-long.445
- Khurana A., Subramonyam H., Chilana P.K. Why and when LLM-based assistants can go wrong: investigating the effectiveness of prompt-based interactions for software help-seeking // Proc. of the 29th International Conference on Intelligent User Interfaces. 2024. P. 288–303. https://doi.org/10.1145/3640543.3645200
- Мокрецов Н.С., Татарникова Т.М. Оптимизация процесса обучения при ограниченном объеме вычислительных ресурсов // Международная конференция по мягким вычислениям и измерениям. 2024. Т. 1. C. 205–208.
- Ouyang L., Wu J., Jiang X., Almeida D., Wainwright C., Mishkin P., Zhang C., Agarwal S., Slama K., Ray A., et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. V. 35. P. 27730–27744.
- Borgeaud S., Mensch A., Hoffmann J., Cai T., Rutherford E., Millican K., et al. Improving language models by retrieving from trillions of tokens // Proc. of the 39th InternationalConference on Machine Learning. 2022. P. 2206–2240.
- Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической суммаризации текста // Инженерный вестник Дона. 2020. № 10 (70). C. 142–159.
- Швыров В.В., Капустин Д.А., Кущенко А.В., Сентяй Р.Н. Дообучение больших языковых моделей с использованием техники LoRA для решения задач статического анализа программного кода // Вестник Луганского государственного университета имени Владимира Даля. 2023. № 12 (78). C. 210–215.
- Liu Z., Lin W., Shi Y., Zhao J. A robustly optimized BERT pre-training approach with post-training // Lecture Notes in Computer Science. 2021. V. 12869. P. 471–484. https://doi.org/10.1007/978-3-030-84186-7_31
- Jiao X., Yin Y., Shang L., Jiang X., Chen X., Li L., Wang F., Liu Q. TinyBERT: distilling BERT for natural language understanding // Findings of the Association for Computational Linguistics: EMNLP. 2020. P. 4163–4174. https://doi.org/10.18653/v1/2020.findings-emnlp.372