DOI: 10.17586/2226-1494-2018-18-2-346-349


УДК004.93

ПОВЫШЕНИЕ ТОЧНОСТИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ВИЗУАЛЬНОЙ РУССКОЙ РЕЧИ: ОПТИМИЗАЦИЯ ВИЗЕМНЫХ КЛАССОВ

Иванько Д. В., Федотов Д. В., Карпов А. А.


Язык статьи - русский

Ссылка для цитирования: Иванько Д.В., Федотов Д.В., Карпов А.А. Повышение точности автоматического распознавания визуальной русской речи: оптимизация виземных классов // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 346–349. doi: 10.17586/2226-1494-2018-18-2-346-349

Аннотация

В задаче автоматического чтения речи по губам диктора ведутся поиски оптимального набора классов визем, необходимого для максимально эффективного распознавания визуальной речи. Предложен подход для выделения классов визем, позволяющий создавать набор карт соответствия фонема–визема, где каждый класс имеет различное количество визем, от 2 до 48, при неизменном количестве фонем. Виземные классы основаны на их отображении из классов фонем, которые преобразуются в виземные группы в процессе распознавания звучащей речи. Используя полученные карты соответствия, на основе базы данных аудиовизуальной русской речи HAVRUSв работе продемонстрирована зависимость точности распознавания визуальной речи от количества используемых виземных классов. Использование высокоскоростных видеоданных позволило расширить оптимальный набор виземных классов до 20, что привело к улучшению точности распознавания по сравнению с набором из 14 классов.


Ключевые слова: распознавание визуальной речи, виземы, автоматическое чтение речи по губам диктора

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9957.2017/ДААД, а также в рамках бюджетной темы РФ № 0073-2018-0002.

Список литературы
 
  1. Bear H., Harvey R., Theobald B., Lan Y. Which phoneme-to-viseme maps best improve visual-only computer lip-reading // Lecture Notes in Computer Science. 2014. V. 8888. P. 230–239.
  2. Hazen T., Saenko K., La C., Glass J. A segment-based audio-visual speech recognizer: data collection, development, and initial experiments // Proc. 6th Int. Conf. on Multimodal Interfaces. New York, 2004. P. 235–242.
  3. Verkhodanova V., Ronzhin A., Kipyatkova I., Ivanko D., Karpov A., Zelezny M. HAVRUS corpus: high-speed recordings of audio-visual Russian speech // Lecture Notes in Computer Science. 2016. V. 9811. P. 338–345.
  4. Ivanko D., Karpov A., Ryumin D., Kipyatkova I., Saveliev A., Budkov V., Ivanko Dm., Milos Z. Using a high-speed video camera for robust audio-visual speech recognition in acoustically noisy conditions // Lecture Notes in Computer Science. 2017. V. 10458. P. 757–767.
  5. Karpov A. An automatic multimodal speech recognition system with audio and video information // Automation and Remote Control. 2014. V. 75. N 12. P. 2190–2200. doi: 10.1134/S000511791412008X
  6. Websdale D., Milner B. Analysing the importance of different visual feature coefficients // Proc. Conference on Facial Analysis, Animation, and Auditory-Visual Speech Processing. Vienna, 2015. P. 137–142.
  7. Savchenko A., Khokhlova Y. About neural-network algorithms application in viseme classification problem with face video in audiovisual speech recognition systems // Optical Memory and Neural Networks. 2014. V. 23. N 1. P. 34–42. doi: 10.3103/S1060992X14010068
  8. Zheng G.L., Zhu M., Feng L. Review of lip-reading recognition // Proc. 7th International Symposium on Computational Intelligence and Design. Hangzhou, China, 2014. P. 293–298. doi: 10.1109/ISCID.2014.110
  9. Karpov A., Kipyatkova I., Zelezny M. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera // Lecture Notes in Computer Science. 2014. V. 8773. P. 50–57.
Информация 2001-2018 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика