УДК 20.19.29

ДВУЯЗЫЧНАЯ МНОГОМОДАЛЬНАЯ СИСТЕМА ДЛЯ АУДИОВИЗУАЛЬНОГО СИНТЕЗА РЕЧИ И ЖЕСТОВОГО ЯЗЫКА ПО ТЕКСТУ

Карпов А.А., Железны М.


Читать статью полностью 

Аннотация

Представлена концептуальная модель, архитектура и программная реализация многомодальной системы аудиовизуального синтеза речи и жестового языка по входному тексту. Основными компонентами разработанной многомодальной системы синтеза (жестовый аватар) являются: текстовый процессор анализа входного текста; имитационная трехмерная модель головы человека; компьютерный синтезатор звучащей речи; система синтеза аудиовизуальной речи; имитационная модель верхней части тела и рук человека; многомодальный пользовательский интерфейс, интегрирующий компоненты генерации звучащей, визуальной и жестовой речи по тексту. Предложенная система выполняет автоматическое преобразование входной текстовой информации в речевую (аудиоинформацию) и жестовую (видеоинформацию), объединение и вывод ее в виде мультимедийной информации. На вход системы подается произвольный грамматически корректный текст на русском или чешском языке, который анализируется текстовым процессором для выделения предложений, слов и букв. Далее полученная текстовая информация преобразуется в символы жестовой нотации (используется международная «Гамбургская система нотации» – HamNoSys, которая описывает основные дифференциальные признаки каждого жеста рук: форму кисти, ориентацию руки, место и характер движения), на основе которых трехмерный жестовый аватар воспроизводит элементы жестового языка. Виртуальная трехмерная модель головы и верхней части тела человека реализована на языке моделирования виртуальной реальности VRML и управляется программно средствами графической библиотеки OpenGL. Предложенная многомодальная система синтеза является универсальной, она предназначена как для обычных пользователей, так и для людей с ограниченными возможностями здоровья (в частности, глухих и незрячих людей) и служит для целей мультимедийного аудиовизуального вывода вводимой текстовой информации.


Ключевые слова: многомодальные интерфейсы пользователя, человеко-машинное взаимодействие, жестовый язык, синтез речи, трехмерные модели, ассистивные технологии, жестовый аватар

Благодарности. Исследование выполнено при частичной финансовой поддержке Правительства Российской Федерации (грант № 074-U01), фонда РФФИ (проект № 12-08-01265_а) и Европейского фонда регионального развития (ЕФРР), проект «Новые технологии для информационного общества» (NTIS), Европейский центр передового опыта, ED1.1.00/02.0090.

Список литературы
1. Karpov A., Krnoul Z., Zelezny M., Ronzhin A. Multimodal synthesizer for Russian and Czech sign languages
and audio-visual speech // Lecture Notes in Computer Science (including subseries Lecture Notes in
Artificial Intelligence and Lecture Notes in Bioinformatics). 2013. V. 8009 LNCS. Part 1. P. 520–529.
2. Hanke T. HamNoSys – representing sign language data in language resources and language processing contexts
// Proc. International Conference on Language Resources and Evaluation, LREC 2004. Lisbon, Portugal,
2004. P. 1–6.
3. Карпов А.А., Кагиров И.А. Формализация лексикона системы компьютерного синтеза языка жестов //
Труды СПИИРАН. 2011. № 1 (16). С. 123–140.
4. Efthimiou E. et al. Sign language technologies and resources of the dicta-sign project // Proc. 5th Workshop
on the Representation and Processing of Sign Languages. Istanbul, Turkey, 2012. P. 37–44.
5. Caminero J., Rodríguez-Gancedo M., Hernández-Trapote A., López-Mencía B. SIGNSPEAK project tools: a
way to improve the communication bridge between signer and hearing communities // Proc. 5th Workshop on
the Representation and Processing of Sign Languages. Istanbul, Turkey, 2012. P. 1–6.
6. Gibet S., Courty N., Duarte K., Naour T. The SignCom system for data-driven animation of interactive virtual
signers: methodology and evaluation // ACM Transactions on Interactive Intelligent Systems. 2011. V. 1.
N 1. Art. 6.
7. Borgotallo R., Marino C., Piccolo E. et.al. A multi-language database for supporting sign language translation
and synthesis // Proc. 4th Workshop on the Representation and Processing of Sign Languages: Corpora
and Sign Language Technologies. Malta, 2010. P. 23–26.
8. Карпов А.А. Компьютерный анализ и синтез русского жестового языка // Вопросы языкознания. 2011.
№ 6. С. 41–53.
9. Železný M., Krňoul Z., Císař P., Matoušek J. Design, implementation and evaluation of the Czech realistic
audio-visual speech synthesis // Signal Processing. 2006. V. 86. N 12. P. 3657–3673.
10. Tihelka D., Kala J., Matoušek J. Enhancements of viterbi search for fast unit selection synthesis // Proc. 11th
Annual Conference of the International Speech Communication Association, INTERSPEECH-2010.
Makuhari, Japan, 2010. P. 174–177.
11. Hoffmann R., Jokisch O., Lobanov B., Tsirulnik L., Shpilewsky E., Piurkowska B., Ronzhin A., Karpov A.
Slavonic TTS and SST conversion for let's fly dialogue system // Proc. 12th International Conference on
Speech and Computer SPECOM-2007. Moscow, Russia, 2007. P. 729–733.
12. Krňoul Z., Železný M., Müller L. Training of coarticulation models using dominance functions and visual
unit selection methods for audio-visual speech synthesis // Proc. Annual Conference of the International
Speech Communication Association INTERSPEECH. Pittsburgh, USA, 2006. V. 2. P. 585–588.
13. Karpov A., Tsirulnik L., Krňoul Z., Ronzhin A., Lobanov B., Železný M. Audio-visual speech asynchrony
modeling in a talking head // Proc. Annual Conference of the International Speech Communication Association
INTERSPEECH. Brighton, UK, 2009. P. 2911–2914.
14. Krňoul Z., Železný M. Translation and conversion for Czech sign speech synthesis // Lecture Notes in Computer
Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).
2007. P. 524–531.
15. Krňoul Z., Kanis J., Železný M., Müller L. Czech text-to-sign speech synthesizer // Lecture Notes in Computer
Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).
2008. V. 4892 LNCS. P. 180–191.
16. Карпов А.А. Машинный синтез русской дактильной речи по тексту // Научно-техническая информа-
ция. Серия 2: Информационные процессы и системы. 2013. № 1. С. 20–26.
17. Карпов А.А., Цирульник Л.И., Железны М. Разработка компьютерной системы «говорящая голова»
для аудиовизуального синтеза русской речи по тексту // Информационные технологии. 2010. № 8.
С. 13–18.
18. Borgia F., Bianchini C.S., De Marsico M. Towards improving the e-learning experience for deaf students: e-
LUX // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics). 2014. V. 8514 LNCS. Part 2. P. 221–232.
19. Тампель И.Б., Краснова Е.В., Панова Е.А., Левин К.Е., Петрова О.С. Использование информационно-
коммуникационных технологий в электронном обучении иностранным языкам // Научно-технический
вестник информационных технологий, механики и оптики. 2013. № 2 (84). С. 154–160.
20. Hruz M., Campr P., Dikici E. et. al. Automatic fingersign to speech translation system // Journal on Multimodal
User Interfaces. 2011. V. 4. N 2. P. 61–79.
21. Karpov A., Ronzhin A. A universal assistive technology with multimodal input and multimedia output interfaces
// Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics). 2014. V. 8513 LNCS. Part 1. P. 369–378.
22. Карпов А.А. ICanDo: Интеллектуальный помощник для пользователей с ограниченными физически-
ми возможностями // Вестник компьютерных и информационных технологий. 2007. № 7. С. 32–41.
23. Karpov A., Ronzhin A., Kipyatkova I. An assistive bi-modal user interface integrating multi-channel speech
recognition and computer vision // Lecture Notes in Computer Science (including subseries Lecture Notes in
Artificial Intelligence and Lecture Notes in Bioinformatics). 2011. V. 6762. Part 2. P. 454–463.
24. Karpov A., Ronzhin A., Markov K., Zelezny M. Viseme-dependent weight optimization for CHMM-based
audio-visual speech recognition // Proc. 11th Annual Conference of the International Speech Communication
Association, INTERSPEECH 2010. Makuhari, Japan, 2010. P. 2678–2681.
25. Kindiroglu A., Yalcın H., Aran O., Hruz M., Campr P., Akarun L., Karpov A. Automatic recognition of fingerspelling
gestures in multiple languages for a communication interface for the disabled // Pattern Recognition
and Image Analysis. 2012. V. 22. N 4. P. 527–536.
26. Карпов А.A., Акарун Л., Ронжин Ал.Л. Многомодальные ассистивные системы для интеллектуально-
го жилого пространства // Труды СПИИРАН. 2011. № 4 (19). С. 48–64.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика