doi: 10.17586/2226-1494-2016-16-1-195-197


УДК 004.522

ДИКТОРО-ЗАВИСИМЫЕ ПРИЗНАКИ ДЛЯ РАСПОЗНАВАНИЯ СПОНТАННОЙ РЕЧИ

Меденников И.П.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Меденников И.П. Дикторо-зависимые признаки для распознавания спонтанной речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 195–197.

Аннотация

Приведены результаты исследования по повышению устойчивости системы распознавания спонтанной речи к акустической вариативности речевого сигнала. Предложен метод построения высокоуровневых признаков при помощи глубокой нейронной сети с узким горлом, адаптированной к диктору и акустической обстановке при помощи i-векторов. Предложенный метод обеспечил относительное уменьшение на 11,9% словной ошибки в задаче распознавания русской спонтанной речи в телефонном канале.


Ключевые слова: автоматическое распознавание речи, адаптация к диктору, i-векторы, признаки из глубокой нейронной сети с узким горлом.

Список литературы

1.    Vesely K., Ghoshal A., Burget L., Povey D. Sequence-discriminative training of deep neural networks // Proc. of the Annual Conference of International Speech Communication Association (INTERSPEECH). Lyon, France,                 2013. P. 2345‒2349.

2.    Saon G., Soltau H., Nahamoo D., Picheny M. Speaker adaptation of neural network acoustic models using i-vectors // Proc. IEEE workshop on Automatic Speech Recognition and Understanding (ASRU). Olomouc, Czech Republic, 2013. P. 55‒59. doi: 10.1109/ASRU.2013.6707705

3.    Soltau H., Saon G., Sainath T.N. Joint training of convolutional and non-convolutional neural networks // Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy, 2014. P. 5572‒5576. doi: 10.1109/ICASSP.2014.6854669

4.    Prudnikov A., Medennikov I., Mendelev V., Korenevsky M., Khokhlov Y. Improving acoustic models for Russian spontaneous speech recognition // Lecture Notes in Computer Science. 2015. V. 9319. P. 234‒242. doi: 10.1007/978-3-319-23132-7_29

5.    Rouvier M., Favre B. Speaker adaptation of DNN-based ASR with i-vectors: does it actually adapt models to speakers? // Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH). Singapore, 2014. P. 3007‒3011.

6.    Kozlov A., Kudashev O., Matveev Y., Pekhovsky T., Simonchik K., Shulipa A. SVID speaker recognition system for NIST SRE 2012 // Lecture Notes in Computer Science. Pilsen, Czech Republic, 2013. V. 8113. P. 278‒285. doi: 10.1007/978-3-319-01931-4_37

7.    Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlicek P., Qian Y., Schwarz P., Silovsky J., Stemmer G., Vesely K. The Kaldi speech recognition toolkit // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, USA, 2011. P. 1‒4.

8.    Senior A., Lopez-Moreno I. Improving DNN speaker independence with I-vector inputs // Proc. International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy, 2014. P. 225‒229. doi: 10.1109/ICASSP.2014.6853591

9.    Karafiat M., Grezl F., Hannemann M., Cernocky J. But neural network features for spontaneous Vietnamese in BABEL // Proc. Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy, 2014. P. 5622‒5626. doi: 10.1109/ICASSP.2014.6854679



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика