АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ В УСЛОВИЯХ ШУМА МУЗЫКИ НА МНОГОКАНАЛЬНЫХ ЗАПИСЯХ С УДАЛЕННОГО МИКРОФОНА

Астапов Сергей Сергеевич, Шуранов Евгений Витальевич, Лаврентьев Александр Валерьевич, Кабаров Владимир Иосифович

doi:10.17586/2226-1494-2019-19-3-557-559

2019 , ТОМ 19, НОМЕР 3 ( май-июнь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2019-19-3-557-559

УДК 004.934

АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ В УСЛОВИЯХ ШУМА МУЗЫКИ НА МНОГОКАНАЛЬНЫХ ЗАПИСЯХ С УДАЛЕННОГО МИКРОФОНА

Астапов С.С., Шуранов Е.В., Лаврентьев А.В., Кабаров В.И.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Астапов С.С., Шуранов Е.В., Лаврентьев А.В., Кабаров В.И. Автоматическое распознавание речи в условиях шума музыки на многоканальных записях с удаленного микрофона // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 3. С. 557–559. doi: 10.17586/2226-1494-2019-19-3-557-559

Аннотация

Предмет исследования. Рассмотрен метод подавления шума музыки в многоканальной записи речевого сигнала, основанный на оценке шумовой маски акустической моделью. Метод применяется для реализации автоматического распознавания речи в условиях шума музыки. Методы. Исследование выполнено с использованием акустической модели, реализованной на искусственных нейронных сетях, и натурных записей, сделанных в условиях реверберации. Основные результаты. Акустическая модель способна оценивать шумовую маску на многоканальной смеси для различных жанров музыки. Применение подобной маски для оценки ковариационной матрицы в алгоритме нацеливания MVDR (Minimum Variance Distortionless Response) способствует повышению точности распознавания речи минимум на 4,9 % на отрезке значений отношения сигнал-шум 10–30 дБ. Практическая значимость. Метод оценки параметров алгоритма MVDR на основе оценки шумовой маски акустической моделью способствует подавлению нестационарного шума, такого как шум музыки, что увеличивает робастность систем автоматического распознавания речи.

Ключевые слова: микрофонные решетки, MVDR, акустическая модель, оценка шумовой маски, подавление шума музыки, автоматическое распознавание речи

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание 14.575.21.0132 (IDRFMEFI57517X0132).

Список литературы

1. Heymann J., Drude L., Haeb-Umbach R. Neural network based spectral mask estimation for acoustic beamforming // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China, 2016. P. 196–200. doi: 10.1109/icassp.2016.7471664
2. Higuchi T., Ito N., Yoshioka T., Nakatani T. Robust MVDR beamforming using time-frequency masks for online/ofﬂine ASR in noise // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China, 2016. P. 5210–5214. doi: 10.1109/icassp.2016.7472671
3. Li B., Sainath T.N., Weiss R.J., Wilson K.W., Bacchiani M. Neural network adaptive beamforming for robust multichannel speech recognition // Proc. INTERSPEECH. 2016. P. 1976–1980. doi: 10.21437/interspeech.2016-173
4. Yoshioka T. et al. The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi- microphone devices // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 436–443. doi: 10.1109/asru.2015.7404828
5. Du J. et al. The USTC-iFlyteck system for the CHiME4 challenge // Proc. 4th Int. Workshop on Processing in Everyday Environments. 2016.
6. Brandstein M., Ward D. Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001. 398 p.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License