ПОВЫШЕНИЕ ТОЧНОСТИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ 
ВИЗУАЛЬНОЙ РУССКОЙ РЕЧИ: ОПТИМИЗАЦИЯ ВИЗЕМНЫХ КЛАССОВ

Иванько Денис Викторович, Федотов Дмитрий Валерьевич , Карпов Алексей Анатольевич

doi:10.17586/2226-1494-2018-18-2-346-349

2018 , ТОМ 18, НОМЕР 2 ( март-апрель )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2018-18-2-346-349

УДК 004.93

ПОВЫШЕНИЕ ТОЧНОСТИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ВИЗУАЛЬНОЙ РУССКОЙ РЕЧИ: ОПТИМИЗАЦИЯ ВИЗЕМНЫХ КЛАССОВ

Иванько Д.В., Федотов Д.В., Карпов А.А.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования: Иванько Д.В., Федотов Д.В., Карпов А.А. Повышение точности автоматического распознавания визуальной русской речи: оптимизация виземных классов // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 346–349. doi: 10.17586/2226-1494-2018-18-2-346-349

Аннотация

В задаче автоматического чтения речи по губам диктора ведутся поиски оптимального набора классов визем, необходимого для максимально эффективного распознавания визуальной речи. Предложен подход для выделения классов визем, позволяющий создавать набор карт соответствия фонема–визема, где каждый класс имеет различное количество визем, от 2 до 48, при неизменном количестве фонем. Виземные классы основаны на их отображении из классов фонем, которые преобразуются в виземные группы в процессе распознавания звучащей речи. Используя полученные карты соответствия, на основе базы данных аудиовизуальной русской речи HAVRUSв работе продемонстрирована зависимость точности распознавания визуальной речи от количества используемых виземных классов. Использование высокоскоростных видеоданных позволило расширить оптимальный набор виземных классов до 20, что привело к улучшению точности распознавания по сравнению с набором из 14 классов.

Ключевые слова: распознавание визуальной речи, виземы, автоматическое чтение речи по губам диктора

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9957.2017/ДААД, а также в рамках бюджетной темы РФ № 0073-2018-0002.

Список литературы

Bear H., Harvey R., Theobald B., Lan Y. Which phoneme-to-viseme maps best improve visual-only computer lip-reading // Lecture Notes in Computer Science. 2014. V. 8888. P. 230–239.
Hazen T., Saenko K., La C., Glass J. A segment-based audio-visual speech recognizer: data collection, development, and initial experiments // Proc. 6^th Int. Conf. on Multimodal Interfaces. New York, 2004. P. 235–242.
Verkhodanova V., Ronzhin A., Kipyatkova I., Ivanko D., Karpov A., Zelezny M. HAVRUS corpus: high-speed recordings of audio-visual Russian speech // Lecture Notes in Computer Science. 2016. V. 9811. P. 338–345.
Ivanko D., Karpov A., Ryumin D., Kipyatkova I., Saveliev A., Budkov V., Ivanko Dm., Milos Z. Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions // Lecture Notes in Computer Science. 2017. V. 10458. P. 757–767.
Karpov A. An automatic multimodal speech recognition system with audio and video information // Automation and Remote Control. 2014. V. 75. N 12. P. 2190–2200. doi: 10.1134/S000511791412008X
Websdale D., Milner B. Analysing the importance of different visual feature coefficients // Proc. Conference on Facial Analysis, Animation, and Auditory-Visual Speech Processing. Vienna, 2015. P. 137–142.
Savchenko A., Khokhlova Y. About neural-network algorithms application in viseme classification problem with face video in audiovisual speech recognition systems // Optical Memory and Neural Networks. 2014. V. 23. N 1. P. 34–42. doi: 10.3103/S1060992X14010068
Zheng G.L., Zhu M., Feng L. Review of lip-reading recognition // Proc. 7^th International Symposium on Computational Intelligence and Design. Hangzhou, China, 2014. P. 293–298. doi: 10.1109/ISCID.2014.110
Karpov A., Kipyatkova I., Zelezny M. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera // Lecture Notes in Computer Science. 2014. V. 8773. P. 50–57.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License