Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2019-19-3-557-559
УДК 004.934
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ В УСЛОВИЯХ ШУМА МУЗЫКИ НА МНОГОКАНАЛЬНЫХ ЗАПИСЯХ С УДАЛЕННОГО МИКРОФОНА
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Астапов С.С., Шуранов Е.В., Лаврентьев А.В., Кабаров В.И. Автоматическое распознавание речи в условиях шума музыки на многоканальных записях с удаленного микрофона // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 3. С. 557–559. doi: 10.17586/2226-1494-2019-19-3-557-559
Аннотация
Предмет исследования. Рассмотрен метод подавления шума музыки в многоканальной записи речевого сигнала, основанный на оценке шумовой маски акустической моделью. Метод применяется для реализации автоматического распознавания речи в условиях шума музыки. Методы. Исследование выполнено с использованием акустической модели, реализованной на искусственных нейронных сетях, и натурных записей, сделанных в условиях реверберации. Основные результаты. Акустическая модель способна оценивать шумовую маску на многоканальной смеси для различных жанров музыки. Применение подобной маски для оценки ковариационной матрицы в алгоритме нацеливания MVDR (Minimum Variance Distortionless Response) способствует повышению точности распознавания речи минимум на 4,9 % на отрезке значений отношения сигнал-шум 10–30 дБ. Практическая значимость. Метод оценки параметров алгоритма MVDR на основе оценки шумовой маски акустической моделью способствует подавлению нестационарного шума, такого как шум музыки, что увеличивает робастность систем автоматического распознавания речи.
Ключевые слова: микрофонные решетки, MVDR, акустическая модель, оценка шумовой маски, подавление шума музыки, автоматическое распознавание речи
Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание 14.575.21.0132 (IDRFMEFI57517X0132).
Список литературы
Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание 14.575.21.0132 (IDRFMEFI57517X0132).
Список литературы
1. Heymann J., Drude L., Haeb-Umbach R. Neural network based spectral mask estimation for acoustic beamforming // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China, 2016. P. 196–200. doi: 10.1109/icassp.2016.7471664
2. Higuchi T., Ito N., Yoshioka T., Nakatani T. Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China, 2016. P. 5210–5214. doi: 10.1109/icassp.2016.7472671
3. Li B., Sainath T.N., Weiss R.J., Wilson K.W., Bacchiani M. Neural network adaptive beamforming for robust multichannel speech recognition // Proc. INTERSPEECH. 2016. P. 1976–1980. doi: 10.21437/interspeech.2016-173
4. Yoshioka T. et al. The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi- microphone devices // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 436–443. doi: 10.1109/asru.2015.7404828
5. Du J. et al. The USTC-iFlyteck system for the CHiME4 challenge // Proc. 4th Int. Workshop on Processing in Everyday Environments. 2016.
6. Brandstein M., Ward D. Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001. 398 p.
2. Higuchi T., Ito N., Yoshioka T., Nakatani T. Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China, 2016. P. 5210–5214. doi: 10.1109/icassp.2016.7472671
3. Li B., Sainath T.N., Weiss R.J., Wilson K.W., Bacchiani M. Neural network adaptive beamforming for robust multichannel speech recognition // Proc. INTERSPEECH. 2016. P. 1976–1980. doi: 10.21437/interspeech.2016-173
4. Yoshioka T. et al. The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi- microphone devices // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 436–443. doi: 10.1109/asru.2015.7404828
5. Du J. et al. The USTC-iFlyteck system for the CHiME4 challenge // Proc. 4th Int. Workshop on Processing in Everyday Environments. 2016.
6. Brandstein M., Ward D. Microphone Arrays: Signal Processing Techniques and Applications. Springer, 2001. 398 p.