doi: 10.17586/2226-1494-2026-26-2-306-314


УДК 004.93

Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач

Сурков М.К.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Сурков М.К. Иерархическое многозадачное обучение компактных моделей на основе анализа синергии задач // Научно-технический вестник информационных технологий, механики и оптики. 2026. Т. 26, № 2. С. 306–314. doi: 10.17586/2226-1494-2026-26-2-306-314


Аннотация
Введение. Активное распространение носимых устройств и систем умного дома предполагает значительный рост возможных сценариев использования таких решений. Разнообразие устройств и необходимость удобного взаимодействия с ними обуславливают активное развитие подходов, реализующих различные аспекты такого взаимодействия. На сегодняшний день речь является одним из наиболее удобных человеко-машинных интерфейсов. Развитие технологий обработки и анализа аудио- и речевого сигналов позволяют успешно решать такие сложные задачи, как автоматическое распознавания речи, идентификация и верификация дикторов, детекция эмоций, пола и возраста диктора. Применимость подобных технологий предполагает наличие значительных вычислительных ресурсов, часто недоступных для носимых устройств и систем умного дома. Решение изолированных задач анализа аудио/речи значительно ограничивает сценарии человеко-машинного взаимодействия. Попытки использовать различные технологии в комбинации на одном устройстве приводят к росту требований к вычислительным ресурсам. Наибольший интерес сегодня представляют технологии многозадачного анализа аудио/речевого сигнала с пониженными требованиями к вычислительным ресурсам, позволяющие применять такие технологии в носимых устройствах и системах умного дома. Метод. Предложен метод автоматического построения иерархических многозадачных моделей анализа аудио/речевого сигнала. Метод позволяет определять совместимость решаемых задач при сохранении интегральной точности для всех задач при существенном уменьшении числа обучаемых параметров многозадачной модели и состоит из трех этапов. На этапе 1 производится обучение изолированных моделей распознавания для каждой решаемой задачи и определение метрик данных моделей, на этапе 2 выполняется определение попарной совместимости задач анализа аудио/речи, путем перебора числа общих слоев глубокой нейронной сети. На этапе 3 автоматически формируется финальная иерархическая архитектура, реализующая многозадачную модель распознавания. Основные результаты. Показано, что в сравнении с базовыми подходами разработанный метод позволил создать компактную иерархическую модель. В сравнении с набором независимых однозадачных моделей предложенная архитектура продемонстрировала уменьшение количества обучаемых параметров на 56 % при снижении точности не более 1,9 %, в то время как классическая («плоская») многозадачная архитектура демонстрирует снижение точности на 2,7 %. Применение существующих подходов по оптимизации многозадачных моделей LT4REC и Lottery Ticket Hypothesis приводят к снижению точности на 9 % и 6,5 % соответственно. Обсуждение. Результаты работы имеют практическую значимость для индустрии умных устройств (смартфонов, носимых гаджетов, умных колонок). Предложенный алгоритм позволяет создавать эффективные системы аудиоанализа, которые способны выполнять несколько функций одновременно с минимальными требованиями к вычислительным ресурсам и объемам памяти при развертывании на устройствах с ограниченными возможностями.

Ключевые слова: иерархическое многозадачное обучение, аудиоанализ на устройстве, синергия задач, детектирование речевой активности, распознавание речевых команд

Список литературы
1. Hebbar R., Somandepalli K., Narayanan S. Robust speech activity detection in movie audio: Data resources and experimental evaluation // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 4105–4109. https://doi.org/10.1109/icassp.2019.8682532
2. Sharma M., Joshi S., Chatterjee T., Hamid R. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows // Neurocomputing. 2022. V. 494. P. 116–131. https://doi.org/10.1016/j.neucom.2022.04.084
3. de Andrade D.C., Leo S., Da Silva Viana M.L., Bernkopf C. A neural attention model for speech command recognition // arXiv. 2018. arXiv:1808.08929. https://doi.org/10.48550/arXiv.1808.08929
4. Sánchez-Hevia H.A., Gil-Pita R., Utrilla-Manso M., Rosa-Zurera M.Age group classification and gender recognition from speech with temporal convolutional neural networks // Multimedia Tools and Applications. 2022. V. 81. N 3. P. 3535–3552. https://doi.org/10.1007/s11042-021-11614-4
5. Koutini K., Schlüter J., Eghbal-zadeh H., Widmer G. Efficient training of audio transformers with Patchout // Proc. of the Annual Conference of the International Speech Communication Association Interspeech.2022. P. 2753–2757. https://doi.org/10.21437/interspeech.2022-227
6. Chen S., Wu Y., Wang C., Liu S., Tompkins D., Chen Z., et al. Beats: audio pre-training with acoustic tokenizers // Proc. of the 40th International Conference on Machine Learning, PMLR. 2023. V. 202. P. 5178–5193.
7. Yamashita R., Nishio M., Do R.K.G., Togashi K. Convolutional neural networks: an overview and application in radiology // Insights into Imaging. 2018. V. 9. N 4. P. 611–629. https://doi.org/10.1007/s13244-018-0639-9
8. Sharma M., Joshi S., Chatterjee T., Hamid R. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows // Neurocomputing. 2022. V. 494. P. 116–131. https://doi.org/10.1016/j.neucom.2022.04.084
9. Hoo Z.H., Candlish J., Teare D. What is an ROC curve? // Emergency Medicine Journal. 2017. V. 34. N 6. P. 357–359. https://doi.org/10.1136/emermed-2017-206735
10. Ardila R., Branson M., Davis K., Kohler M., Meyer J., Henretty M., et al. Common voice: A massively-multilingual speech corpus // Proc. of the 12th Language Resources and Evaluation Conference. 2020. P. 4218–4222.
11. Ayache M., Kanaan H., Kassir K., Kassir Y. Speech command recognition using deep learning // Proc. of the 6th International Conference on Advances in Biomedical Engineering (ICABME). 2021. P. 24–29. https://doi.org/10.1109/ICABME53305.2021.9604862
12. Warden P. Speech commands: A dataset for limited-vocabulary speech recognition // arXiv. 2018. arXiv:1804.03209. https://doi.org/10.48550/arXiv.1804.03209
13. Zhang Y., Yang Q. A survey on multi-task learning // IEEE Transactions on Knowledge and Data Engineering. 2022. V. 34. N 12. P. 5586–5609. https://doi.org/10.1109/TKDE.2021.3070203
14. Moritz N., Wichern G., Hori T., Le Roux J. All-in-one transformer: Unifying speech recognition, audio tagging, and event detection // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2020. P. 3112–3116.
15. Chu Y., Xu J., Zhou X., Yang Q., Zhang S., Yan Z., et al. Qwen-audio: Advancing universal audio understanding via unified large-scale audio-language models // arXiv. 2023. arXiv:2311.07919. https://doi.org/10.48550/arXiv.2311.07919
16. Standley T., Zamir A., Chen D., Guibas L., Malik J., Savarese S. Which tasks should be learned together in multi-task learning? // Proc. of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 9120–9132.
17. Zamir A.R., Sax A., Shen W., Guibas L., Malik J., Savarese S. Taskonomy: disentangling task transfer learning // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018. P. 3712–3722. https://doi.org/10.1109/CVPR.2018.00391
18. Surkov M.K. Towards efficient universal audio analysis: a low-complexity model via synergistic multi-task learning // Proc. of the 38th Conference of FRUCT Association. 2025. V. 38. N 2. P. 420–427.
19. Chen T., Zhang Z., Liu S., Chang S., Wang Z. Long live the lottery: The existence of winning tickets in lifelong learning // Proc. of the International Conference on Learning Representations. 2021. P. 1–19.
20. Frankle J., Carbin M.J. The lottery ticket hypothesis: finding sparse, trainable neural networks // Proc. of the 7th International Conference on Learning Representations. 2019.
21. Malach E., Yehudai G., Shalev-shwartz S., Shamir O. Proving the lottery ticket hypothesis: Pruning is all you need // Proc. of the 37th International Conference on Machine Learning, PMLR. 2020. V. 119. P. 6682–6691.
22. Xiao X., Chen H., Liu Y., Yao X., Liu P., Fan C., et al. LT4REC: a lottery ticket hypothesis based multi-task practice for video recommendation system // arXiv. 2020. arXiv:2008.09872. https://doi.org/10.48550/arXiv.2008.09872
23. Fifty C., Amid E., Zhao Z., Yu T., Anil R., Finn C. Efficiently identifying task groupings for multi-task learning // Proc.of the 35th International Conference on Neural Information Processing Systems. 2021. P. 27503–27516.
24. Schmid F., Primus P., Heittola T., Mesaros A., Martín-Morató I., Koutini K., et al. Data-efficient low-complexity acoustic scene classification in the dcase 2024 challenge // arXiv. 2024. arXiv:2405.10018. https://doi.org/10.48550/arXiv.2405.10018


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2026 ©
Научно-технический вестник информационных технологий, механики и оптики.

Яндекс.Метрика