doi: 10.17586/2226-1494-2018-18-2-236-242


УДК 004.93

ПЕРЕНОС ЗНАНИЙ В ЗАДАЧЕ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ В ТЕЛЕФОННЫХ ПЕРЕГОВОРАХ

Романенко А.Н., Матвеев Ю.Н., Минкер В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Романенко А.Н., Матвеев Ю.Н., Минкер В. Перенос знаний в задаче автоматического распознавания русской речи в телефонных переговорах // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 236–242. doi: 10.17586/2226-1494-2018-18-2-236-242

Аннотация

Приведено описание метода переноса знаний (knowledge transfer) между ансамблем нейросетевых акустических моделей и нейросетью-учеником. Данный метод используется для снижения вычислительных затрат и повышения качества системы распознавания речи. В ходе экспериментов рассмотрены два варианта генерации меток классов от ансамбля моделей: интерполяция с выравниванием и использование апостериорных вероятностей. Также исследовано влияние коэффициента сглаживания на качество получаемых моделей. Данный коэффициент был встроен в выходной лог-линейный классификатор нейронной сети (softmax-слой) и использовался как в ансамбле, так и в нейросети-ученике. Дополнительно были проанализированы начальная и конечная скорости обучения. Удалось установить, что при использовании апостериорных вероятностей, сгенерированных ансамблем нейронных сетей, существует пропорциональная зависимость между коэффициентом сглаживания и параметрами скорости обучения. Наконец, использование метода переноса знаний в задаче автоматического распознавания русской речи в телефонном канале позволило сократить уровень пословной ошибки на 2,49% по сравнению с моделью, обученной на выравнивании от ансамбля нейронных сетей.


Ключевые слова: перенос знаний, коэффициент сглаживания, softmax, автоматическое распознавание речи, ансамбль нейронных сетей, сеть-ученик, телефонные переговоры

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9971.2017/ДААД.

Список литературы
1.      Medennikov I., Prudnikov A. Advances in STC Russian spontaneous speech recognition system // Lecture Notes in Computer Science. 2016. V. 9811. P. 116–123. doi: 10.1007/978-3-319-43958-7_13
2.      Siohan O., Rybach D. Multitask learning and system combination for automatic speech recognition // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 589–595. doi: 10.1109/ASRU.2015.7404849
3.      Hartmann W., Zhang L., Barnes K. et al. Comparison of multiple system combination techniques for keyword spotting // Proc. INTERSPEECH. San Francisco, USA, 2016. P. 1913–1917. doi: 10.21437/Interspeech.2016-1381
4.      Hinton G., Vinyals O., Dean J. Distilling knowledge in a neural network // Proc. NIPS 2014 Deep Learning Workshop. Montreal, Canada, 2014. arXiv: 1503.02531.
5.      Dietterich T.G. Ensemble methods in machine learning // Proc. Int. Workshop on Multiple Classifier Systems. Cagliari, Italy, 2000. P. 1–15. doi: 10.1007/3-540-45014-9_1
6.      Saon G., Kurata G., Sercu T. et al. English conversational telephone speech recognition by humans and machines // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 132–136. doi: 10.21437/Interspeech.2017-405
7.      Han K.J, Hahm S., Kim B.-H. et al. Deep learning-based telephony speech recognition in the wild // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 1323–1327. doi: 10.21437/Interspeech.2017-1695
8.      Xiong W., Wu L., Alleva F. et al. The Microsoft 2017 conversational speech recognition system. Technical Report MSR-TR-2017-39. 2017. arXiv:1708.06073.
9.      Zolnay A., Schluter R., Ney H. Acoustic feature combination for robust speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Philadelphia, USA, 2005. P. I457–I460. doi: 10.1109/ICASSP.2005.1415149
10.   Khokhlov Y., Medennikov I., Romanenko A. et al. The STC keyword search system for OpenKWS 2016 evaluation // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 3602–3606. doi: 10.21437/Interspeech.2017-1212
11.   Томашенко Н.А., Хохлов Ю.Ю., Ларшер Э., Эстев Я., Матвеев Ю.Н. Использование в системах автоматического распознавания речи GMM-моделей для адаптации акустических моделей, построенных на основе искусственных нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 6. С. 1063–1072. doi: 10.17586/2226-1494-2016-16-6-1063-1072
12.   Narang S., Elsen E., Diamos G., Sengupta S. Exploring sparsity in recurrent neural networks // Proc. International Conference on Learning Representations (ICLR). Toulon, France, 2017. arXiv:1704.05119
13.   Bucilua C., Caruana R., Niculescu-Mizil A. Model compression // Proc. 12th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining. NY, 2006. P. 535–541. doi: 10.1145/1150402.1150464
14.   Povey D., Ghoshal A. et al. The Kaldi speech recognition toolkit // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, Hawaii, USA, 2011.
15.   Меденников И.П. Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи: дис. … канд. техн. наук. СПб, 2016. 200 с.
16.   Povey D., Peddinti V., Galvez D. et al. Purely sequence-trained neural networks for ASR based on lattice-free MMI // Proc. INTERSPEECH. San Francisco, USA, 2016. P. 2751–2755. doi: 10.21437/Interspeech.2016-595
17.   Ravindran S., Demirogulu C., Anderson D.V. Speech recognition using filter-bank features // Proc. 37th Conference on Signals, Systems and Computers. Pacific Grove, USA, 2003. V. 2. P. 1900–1903. doi: 10.1109/ACSSC.2003.1292312
18.   Hui Y., Hohmann V., Nadeu C. Acoustic features for speech recognition based on Gammatone filterbank and instantaneous frequency // Speech Communication. 2011. V. 53. N 5. P. 707–715. doi: 10.1016/j.specom.2010.04.008
19.   Hermansky H. Perceptual linear predictive (PLP) analysis of speech // Journal of the Acoustical Society of America. 1990. V. 87. N 4. P. 1738–1752. doi: 10.1121/1.399423
20.   Ghahremani P., BabaAli B., Povey D. at al. A pitch extraction algorithm tuned for automatic speech recognition // Proc. Int. Conf. on Acoustics, Speech and Signal Processing. Florence, Italy, 2014. P. 2494–2498. doi: 10.1109/ICASSP.2014.6854049
21.   Dehak N., Kenny P., Dehak R. et al. Front-end factor analysis for speaker verification // IEEE Transactions on Audio, Speech and Language Processing. 2011. V. 19. N 4. P. 788–798. doi: 10.1109/TASL.2010.2064307
22.   Меденников И.П. Дикторо-зависимые признаки для распознавания спонтанной речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 195–197. doi: 10.17586/2226-1494-2016-16-1-195-197
23.   Ko T., Peddinti V., Povey D., Khudanpur S. Audio augmentation for speech recognition // Proc. INTERSPEECH. Dresden, Germany, 2015. P. 3586–3589.
24.   Goel V., Byrne W. Minimum Bayes-risk automatic speech recognition // Computer Speech and Language. 2000. V. 14. N 2. P. 115–135. doi: 10.1006/csla.2000.0138
Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proc. INTERSPEECH. Dresden, Germany, 2015. P. 3214–3218.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика