Меню
Публикации
2026
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2025-25-4-651-662 УДК 004.855.5
УДК УДК 004.855.5
Метод генерации анимации цифрового аватара с речевой и невербальной синхронизацией на основе бимодальных данных
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Аксёнов А.А., Рюмина Е.В., Рюмин Д.А. Метод генерации анимации цифрового аватара с речевой и невербальной синхронизацией на основе бимодальных данных // Научно- технический вестник информационных технологий, механики и оптики. 2025. Т. 25, № 4. С. 651–662. doi: 10.17586/2226-1494-2025-25-4-651-662
Аннотация
Введение. Рассмотрена задача генерации анимации цифрового аватара с синхронным воспроизведением речи, мимики и жестикуляции на основе бимодального входа — статического изображения и текста с эмоциональной окраской. Исследована возможность интеграции акустических, визуальных и аффективных признаков в единую модель, обеспечивающую реалистичное и выразительное поведение аватара в соответствии с содержанием и эмоциональным тоном высказывания. Метод. Предложенный метод включает шаги извлечения визуальных ориентиров лица, рук и позы, определения пола для выбора подходящего голосового профиля, анализа текста на предмет эмоционального содержания и генерации синтетической аудиоречи. Все признаки интегрируются в генеративной архитектуре на основе диффузионной модели с механизмами временного внимания и межмодального согласования. Это обеспечивает высокую точность синхронизации между речью и невербальными компонентами поведения аватара. Для обучения использовались два специализированных корпуса: один для моделирования жестикуляции, другой — для мимики. Аннотирование производилось средствами автоматического извлечения пространственных ориентиров. Основные результаты. Экспериментальное исследование метода выполнялось на многопроцессорной вычислительной платформе с графическими ускорителями. Качество работы модели оценивалось с помощью объективных метрик. Метод показал высокую степень визуального и семантического соответствия: FID — 50,13; FVD — 601,70; SSIM — 0,752; PSNR — 21,997; E-FID — 2,226; Sync-D — 7,003; Sync-C — 6,398. Модель успешно синхронизирует речь с мимикой и жестами, учитывает эмоциональный контекст текста, а также особенности русского жестового языка. Обсуждение. Результаты работы могут найти применение в системах эмоционально-чувствительного человеко-машинного взаимодействия, цифровых ассистентах, образовательных и психологических интерфейсах. Предложенный метод представляет интерес для специалистов в области искусственного интеллекта, мультимодальных интерфейсов, компьютерной графики и цифровой психологии.
Ключевые слова: цифровой аватар, BiMoDiCA, мимика, жесты, латентное пространство, генерация анимации, синтез речи, Denoising U-Net, Stable Diffusion
Благодарности. Разделы «Исследования в области генерации цифровых аватаров» и «Экспериментальные исследования метода» выполнены при финансовой поддержке Российского научного фонда (проект № 24-71-00083), остальные исследования — при поддержке того же фонда (проект № 24-71-00112).
Список литературы
Благодарности. Разделы «Исследования в области генерации цифровых аватаров» и «Экспериментальные исследования метода» выполнены при финансовой поддержке Российского научного фонда (проект № 24-71-00083), остальные исследования — при поддержке того же фонда (проект № 24-71-00112).
Список литературы
- Sincan O.M., Keles H.Y. AUTSL: A Large Scale Multi-Modal Turkish Sign Language Dataset and Baseline Methods // IEEE Access. 2020. V. 8. P. 181340–181355. https://doi.org/10.1109/ACCESS.2020.3028072
- Kapitanov A., Kvanchiani K., Nagaev A., Kraynov R., Makhliarchuk A. HaGRID-HAnd Gesture Recognition Image Dataset // Proc. of the Winter Conference on Applications of Computer Vision (WACV). 2024. P. 4560–4569. https://doi.org/10.1109/WACV57701.2024.00451
- Busso C., Bulut M., Lee C.C., Kazemzadeh A., Mower E., Kim S., Chang J., Lee S., Narayanan S.S. IEMOCAP: interactive emotional dyadic motion capture database // Language Resources and Evaluation. 2008. V. 42. N 4. P. 335–359. https://doi.org/10.1007/s10579-008-9076-6
- Shen K., Guo C., Kaufmann M., Zarate J., Valentin J., Song J., Hilliges O. X-Avatar: expressive human avatars // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023. P. 16911–16921. https://doi.org/10.1109/CVPR52729.2023.01622
- Zhang H., Chen B., Yang H., Qu L., Wang X., Chen L., Long C., Zhu F., Du D., Zheng M. AvatarVerse: high-quality and stable 3D avatar creation from text and pose // Proc. of the AAAI Conference on Artificial Intelligence. 2024. V. 38. N 7. P. 7124–7132. https://doi.org/10.1609/aaai.v38i7.28540
- Kim K., Song B. Robust 3D human avatar reconstruction from monocular videos using depth optimization and camera pose estimation // IEEE Access. 2025. V. 13. P. 57886–57897. https://doi.org/10.1109/ACCESS.2025.3556445
- Yuan Y., Li X., Huang Y., De Mello S., Nagano K., Kautz J., Iqbal U. Gavatar: animatable 3D gaussian avatars with implicit mesh learning // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 896–905. https://doi.org/10.1109/CVPR52733.2024.00091
- Teotia K., Mallikarjun B.R., Pan X., Kim H., Garrido P., Elgharib M., Theobalt C. HQ3DAvatar: high-quality implicit 3D head avatar // ACM Transactions on Graphics. 2024. V. 43. N 3. P 1–24. https://doi.org/10.1145/3649889
- Yang L., Zhang Z., Song Y., Hong S., Xu R., Zhao Y., Zhang W., Cui B., Yang M. Diffusion models: a comprehensive survey of methods and applications // ACM Computing Surveys. 2023. V. 56. N 4. P. 1–39. https://doi.org/10.1145/3626235
- Karras J., Holynski A., Wang T., Kemelmacher-Shlizerman I. DreamPose: fashion image-to-videosynthesis via stable diffusion // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 22623–22633. https://doi.org/10.1109/ICCV51070.2023.02073
- Huang Z., Tang F., Zhang Y., Cun X., Cao J., Li J., Lee T. Make-Your-Anchor: a diffusion-based 2D avatar generation framework // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 6997–7006. https://doi.org/10.1109/CVPR52733.2024.00668
- Blattmann A., Dockhorn T., Kulal S., Mendelevitch D., Kilian M., Lorenz D., Levi Y., English Z., Voleti V., Letts A., Jampani V., Rombach R. Stable video diffusion: scaling latent video diffusion models to large datasets // arXiv. 2023.arXiv:2311.15127. https://doi.org/10.48550/arXiv.2311.15127
- Zhang L., Rao A., Agrawala M. Adding conditional control to text-to-image diffusion models // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2023. P. 3813–3824. https://doi.org/10.1109/ICCV51070.2023.00355
- Zhuang S., Li K., Chen X., Wang Y., Liu Z., Qiao Y., Wang Y. Vlogger: make your dream a vlog // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 8806–8817. https://doi.org/10.1109/CVPR52733.2024.00841
- Xu M., Li H., Su Q., Shang H., Zhang L., Liu C., Wang J., Yao Y., Zhu S. Hallo: hierarchical audio-driven visual synthesis for portrait image animation // arXiv. 2024. arXiv:2406.08801. https://doi.org/10.48550/arXiv.2406.08801
- Yang S., Li H., Wu J., Jing M., Li L., Ji R., Liang J., Fan H., Wang J. MegActor-Sigma: unlocking flexible mixed-modal control in portrait animation with diffusion transformer // Proc. of the AAAI Conference on Artificial Intelligence. 2025. V.39. N 9. P. 9256–9264. https://doi.org/10.1609/aaai.v39i9.33002
- Lin G., Jiang J., Liang C., Zhong T., Yang J., Zheng Y. CyberHost: taming audio-driven avatar diffusion model with region codebook attention // arXiv. 2024. arXiv:2409.01876. https://doi.org/10.48550/arXiv.2409.01876
- Chen Z., Cao J., Chen Z., Li Y., Ma C. EchoMimic: lifelike audio-driven portrait animations through editable landmark conditions // Proc. of the AAAI Conference on Artificial Intelligence. 2025. V. 39. N 3. P. 2403–2410. https://doi.org/10.1609/aaai.v39i3.32241
- Serengil S., Özpınar A. A benchmark of facial recognition pipelines and co-usability performances of modules // Bilişim Teknolojileri Dergisi. 2024. V. 17. N 2. P. 95–107. https://doi.org/10.17671/gazibtd.1399077
- Bazarevsky V., Kartynnik Y., Vakunov A., Raveendran K., Grundmann M. Blazeface: sub-millisecond seural face detection on mobile GPUs // arXiv. 2019. arXiv:1907.05047. https://doi.org/10.48550/arXiv.1907.05047
- Zhang F., Bazarevsky V., Vakunov A., Tkachenka A., Sung G., Chang C.L., Grundmann M. MediaPipe hands: on-device real-time hand tracking // arXiv. 2020. arXiv:2006.10214. https://doi.org/10.48550/arXiv.2006.10214
- Bazarevsky V., Grishchenko I., Raveendran K., Zhu T., Zhang F., Grundmann M. BlazePose: on-device real-time body pose tracking // arXiv. 2020. arXiv:2006.10204. https://doi.org/10.48550/arXiv.2006.10204
- Xu J., Zou X., Huang K., Chen Y., Liu B., Cheng M., Shi X., Huang J. EasyAnimate: a high-performance long video generation method based on transformer Architecture // arXiv. 2024. arXiv:2405.18991. https://doi.org/10.48550/arXiv.2405.18991
- Hu L. Animate anyone: consistent and controllable image-to-video synthesis for character animation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2024. P. 8153–8163. https://doi.org/10.1109/CVPR52733.2024.00779
- Ryumina E., Ryumin D., Axyonov A., Ivanko D., Karpov A. Multi-corpus emotion recognition method based on cross-modal gated attention fusion // Pattern Recognition Letters. 2025. V. 190. P. 192–200. https://doi.org/10.1016/j.patrec.2025.02.024
- Peng Y., Sudo Y., Shakeel M., Watanabe S. OWSM-CTC: an open encoder-only speech foundation model for speech recognition, translation, and language identification // Proc. of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024. V. 1. P. 10192–10209. https://doi.org/10.18653/v1/2024.acl-long.549
- Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. Attention is all you need // Proc. of the Advances in Neural Information Processing Systems 30 (NIPS 2017). 2017. P. 1–11.
- Kapitanov A., Kvanchiani K., Nagaev A., Petrova E. Slovo: Russian sign language dataset // Lecture Notes in Computer Science. 2023. V. 14253. P. 63–73. https://doi.org/10.1007/978-3-031-44137-0_6
- Xie L., Wang X., Zhang H., Dong C., Shan Y. VFHQ: a high-quality dataset and benchmark for video face super-resolution // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2022. P. 657–665. https://doi.org/10.1109/CVPRW56347.2022.00081
- Kagirov I., Ivanko D., Ryumin D., Axyonov A., Karpov A. TheRuSLan: database of russian sign language // Proc. of the12th Conference on Language Resources and Evaluatio (LREC). 2020. P. 6079–6085.
- Кагиров И.А., Рюмин Д.А., Аксенов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1.С. 104-123. https://doi.org/10.31857/S0373658X0008302-1
- Axyonov A., Ryumin D., Ivanko D., Kashevnik A., Karpov A. Audio-visual speech recognition in-the-wild: multi-angle vehicle cabin corpus and attention-based method // Proc. of the 49th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2024. P. 8195–8199. https://doi.org/10.1109/ICASSP48485.2024.10448048
- Liu Z. Super Convergence cosine annealing with warm-up learning rate // Proc. of the 2nd International Conference on Artificial Intelligence, Big Data and Algorithms (CAIBDA). 2022. P. 1–7.
- Wang P., Shen L., Tao Z., He S., Tao D. Generalization analysis of stochastic weight averaging with general sampling // Proc. of the 41st International Conference on Machine Learning (ICML). 2024. P. 51442–51464
- Yang H., Zhang Z., Tang H., Qian J., Yang J. ConsistentAvatar: learning to diffuse fully consistent talking head avatar with temporal guidance // Proc. of the 32nd ACM International Conference on Multimedia. 2024. P. 3964–3973. https://doi.org/10.1145/3664647.3680619
- Unterthiner T., Van Steenkiste S., Kurach K., Marinier R., Michalski M., Gelly S. Towards accurate generative models of video: a new metric and challenges // arXiv. 2018. arXiv:1812.01717. https://doi.org/10.48550/arXiv.1812.01717
- Wang Z., Bovik A.C., Sheikh H.R., Simoncelli E.P. Image quality assessment: from error visibility to structural similarity // IEEE Transactions on Image Processing. 2004. V. 13. N 4. P. 600–612. https://doi.org/10.1109/TIP.2003.819861
- Hore A., Ziou D. Image quality metrics: PSNR vs. SSIM // Proc. of the 20th International Conference on Pattern Recognition. 2010. P. 2366–2369. https://doi.org/10.1109/ICPR.2010.579
- Deng Y., Yang J., Xu S., Chen D., Jia Y., Tong X. Accurate 3D face reconstruction with weakly-supervised learning: from single image to image set // Proc. of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. P. 285–295. https://doi.org/10.1109/CVPRW.2019.00038
- Prajwal K.R., Mukhopadhyay R., Namboodiri V.P., Jawahar C.V. A lip sync expert is all you need for speech to lip generation in the wild // Proc. of the 28th ACM International Conference on Multimedia. 2020. P. 484–492. https://doi.org/10.1145/3394171.3413532

