Меню
Публикации
2026
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2026-26-2-306-314
УДК 004.93
Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Сурков М.К. Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач // Научно-технический вестник информационных технологий, механики и оптики. 2026. Т. 26, № 2. С. 306–314. doi: 10.17586/2226-1494-2026-26-2-306-314
Аннотация
Введение. Активное распространение носимых устройств и систем умного дома предполагает значительный рост возможных сценариев использования таких решений. Разнообразие устройств и необходимость удобного взаимодействия с ними обуславливают активное развитие подходов, реализующих различные аспекты такого взаимодействия. На сегодняшний день речь является одним из наиболее удобных человеко-машинных интерфейсов. Развитие технологий обработки и анализа аудио- и речевого сигналов позволяют успешно решать такие сложные задачи, как автоматическое распознавания речи, идентификация и верификация дикторов, детекция эмоций, пола и возраста диктора. Применимость подобных технологий предполагает наличие значительных вычислительных ресурсов, часто недоступных для носимых устройств и систем умного дома. Решение изолированных задач анализа аудио/речи значительно ограничивает сценарии человеко-машинного взаимодействия. Попытки использовать различные технологии в комбинации на одном устройстве приводят к росту требований к вычислительным ресурсам. Наибольший интерес сегодня представляют технологии многозадачного анализа аудио/речевого сигнала с пониженными требованиями к вычислительным ресурсам, позволяющие применять такие технологии в носимых устройствах и системах умного дома. Метод. Предложен метод автоматического построения иерархических многозадачных моделей анализа аудио/речевого сигнала. Метод позволяет определять совместимость решаемых задач при сохранении интегральной точности для всех задач при существенном уменьшении числа обучаемых параметров многозадачной модели и состоит из трех этапов. На этапе 1 производится обучение изолированных моделей распознавания для каждой решаемой задачи и определение метрик данных моделей, на этапе 2 выполняется определение попарной совместимости задач анализа аудио/речи, путем перебора числа общих слоев глубокой нейронной сети. На этапе 3 автоматически формируется финальная иерархическая архитектура, реализующая многозадачную модель распознавания. Основные результаты. Показано, что в сравнении с базовыми подходами разработанный метод позволил создать компактную иерархическую модель. В сравнении с набором независимых однозадачных моделей предложенная архитектура продемонстрировала уменьшение количества обучаемых параметров на 56 % при снижении точности не более 1,9 %, в то время как классическая («плоская») многозадачная архитектура демонстрирует снижение точности на 2,7 %. Применение существующих подходов по оптимизации многозадачных моделей LT4REC и Lottery Ticket Hypothesis приводят к снижению точности на 9 % и 6,5 % соответственно. Обсуждение. Результаты работы имеют практическую значимость для индустрии умных устройств (смартфонов, носимых гаджетов, умных колонок). Предложенный алгоритм позволяет создавать эффективные системы аудиоанализа, которые способны выполнять несколько функций одновременно с минимальными требованиями к вычислительным ресурсам и объемам памяти при развертывании на устройствах с ограниченными возможностями.
Ключевые слова: иерархическое многозадачное обучение, аудиоанализ на устройстве, синергия задач, детектирование речевой активности, распознавание речевых команд
Список литературы
Список литературы
1. Hebbar R., Somandepalli K., Narayanan S. Robust speech activity detection in movie audio: Data resources and experimental evaluation // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 4105–4109. https://doi.org/10.1109/icassp.2019.8682532
2. Sharma M., Joshi S., Chatterjee T., Hamid R. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows // Neurocomputing. 2022. V. 494. P. 116–131. https://doi.org/10.1016/j.neucom.2022.04.084
3. de Andrade D.C., Leo S., Da Silva Viana M.L., Bernkopf C. A neural attention model for speech command recognition // arXiv. 2018. arXiv:1808.08929. https://doi.org/10.48550/arXiv.1808.08929
4. Sánchez-Hevia H.A., Gil-Pita R., Utrilla-Manso M., Rosa-Zurera M.Age group classification and gender recognition from speech with temporal convolutional neural networks // Multimedia Tools and Applications. 2022. V. 81. N 3. P. 3535–3552. https://doi.org/10.1007/s11042-021-11614-4
5. Koutini K., Schlüter J., Eghbal-zadeh H., Widmer G. Efficient training of audio transformers with Patchout // Proc. of the Annual Conference of the International Speech Communication Association Interspeech.2022. P. 2753–2757. https://doi.org/10.21437/interspeech.2022-227
6. Chen S., Wu Y., Wang C., Liu S., Tompkins D., Chen Z., et al. Beats: audio pre-training with acoustic tokenizers // Proc. of the 40th International Conference on Machine Learning, PMLR. 2023. V. 202. P. 5178–5193.
7. Yamashita R., Nishio M., Do R.K.G., Togashi K. Convolutional neural networks: an overview and application in radiology // Insights into Imaging. 2018. V. 9. N 4. P. 611–629. https://doi.org/10.1007/s13244-018-0639-9
8. Sharma M., Joshi S., Chatterjee T., Hamid R. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows // Neurocomputing. 2022. V. 494. P. 116–131. https://doi.org/10.1016/j.neucom.2022.04.084
9. Hoo Z.H., Candlish J., Teare D. What is an ROC curve? // Emergency Medicine Journal. 2017. V. 34. N 6. P. 357–359. https://doi.org/10.1136/emermed-2017-206735
10. Ardila R., Branson M., Davis K., Kohler M., Meyer J., Henretty M., et al. Common voice: A massively-multilingual speech corpus // Proc. of the 12th Language Resources and Evaluation Conference. 2020. P. 4218–4222.
11. Ayache M., Kanaan H., Kassir K., Kassir Y. Speech command recognition using deep learning // Proc. of the 6th International Conference on Advances in Biomedical Engineering (ICABME). 2021. P. 24–29. https://doi.org/10.1109/ICABME53305.2021.9604862
12. Warden P. Speech commands: A dataset for limited-vocabulary speech recognition // arXiv. 2018. arXiv:1804.03209. https://doi.org/10.48550/arXiv.1804.03209
13. Zhang Y., Yang Q. A survey on multi-task learning // IEEE Transactions on Knowledge and Data Engineering. 2022. V. 34. N 12. P. 5586–5609. https://doi.org/10.1109/TKDE.2021.3070203
14. Moritz N., Wichern G., Hori T., Le Roux J. All-in-one transformer: Unifying speech recognition, audio tagging, and event detection // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2020. P. 3112–3116.
15. Chu Y., Xu J., Zhou X., Yang Q., Zhang S., Yan Z., et al. Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models // arXiv. 2023. arXiv:2311.07919. https://doi.org/10.48550/arXiv.2311.07919
16. Standley T., Zamir A., Chen D., Guibas L., Malik J., Savarese S. Which tasks should be learned together in multi-task learning? // Proc. of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 9120–9132.
17. Zamir A.R., Sax A., Shen W., Guibas L., Malik J., Savarese S. Taskonomy: disentangling task transfer learning // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018. P. 3712–3722. https://doi.org/10.1109/CVPR.2018.00391
18. Surkov M.K. Towards efficient universal audio analysis: a low-complexity model via synergistic multi-task learning // Proc. of the 38th Conference of FRUCT Association. 2025. V. 38. N 2. P. 420–427.
19. Chen T., Zhang Z., Liu S., Chang S., Wang Z. Long live the lottery: The existence of winning tickets in lifelong learning // Proc. of the International Conference on Learning Representations. 2021. P. 1–19.
20. Frankle J., Carbin M.J. The lottery ticket hypothesis: finding sparse, trainable neural networks // Proc. of the 7th International Conference on Learning Representations. 2019.
21. Malach E., Yehudai G., Shalev-shwartz S., Shamir O. Proving the lottery ticket hypothesis: Pruning is all you need // Proc. of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 6682–6691.
22. Xiao X., Chen H., Liu Y., Yao X., Liu P., Fan C., et al. LT4REC: a lottery ticket hypothesis based multi-task practice for video recommendation system // arXiv. 2020. arXiv:2008.09872. https://doi.org/10.48550/arXiv.2008.09872
23. Fifty C., Amid E., Zhao Z., Yu T., Anil R., Finn C. Efficiently identifying task groupings for multi-task learning // Proc.of the 35th International Conference on Neural Information Processing Systems. 2021. P. 27503–27516.
24. Schmid F., Primus P., Heittola T., Mesaros A., Martín-Morató I., Koutini K., et al. Data-efficient low-complexity acoustic scene classification in the dcase 2024 challenge // arXiv. 2024. arXiv:2405.10018. https://doi.org/10.48550/arXiv.2405.10018

