DOI: 10.17586/2226-1494-2016-16-2-379-381


УДК004.522

ДВУХЭТАПНЫЙ АЛГОРИТМ ИНИЦИАЛИЗАЦИИ ОБУЧЕНИЯ АКУСТИЧЕСКИХ МОДЕЛЕЙ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ

Меденников И.П.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Меденников И.П. Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 2. С. 379–381. doi:10.17586/2226-1494-2016-16-2-379-381

Аннотация

Предложен двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей. Алгоритм предназначен для уменьшения влияния сегментов, не содержащих речь, на обучение акустической модели. Идея предлагаемого подхода заключается в уменьшении доли неречевых примеров в обучающей выборке. Оценка эффективности алгоритма выполнена на задаче распознавания английской спонтанной речи в телефонном канале (Switchboard). Применение предложенного алгоритма позволило добиться 3% относительного уменьшения пословной ошибки распознавания по сравнению с инициализацией обучения при помощи ограниченных машин Больцмана. Результаты работы могут найти применение при разработке систем автоматического распознавания речи.


Ключевые слова: автоматическое распознавание речи, глубокие нейронные сети

Список литературы

1. Hinton G., Deng L., Yu D., Dahl G., Mohamed A.-R., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T., Kingsbury B. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups // IEEE Signal Processing Magazine. 2012. V. 29. N 6. P. 82–97. doi: 10.1109/MSP.2012.2205597
2. Dahl G.E., Yu D., Deng L., Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition // IEEE Transactions on Audio, Speech and Language Processing. 2012. V. 20. N 1. P. 30‒42. doi: 10.1109/TASL.2011.2134090
3. Потапов А.С., Батищева В.В., Пан Ш. Улучшение качества распознавания в сетях глубокого обучения с помощью метода имитации отжига // Научно-технический вестник информационных технологий, механики и оптики. 2014. № 5 (93). С. 71–76.
4. Godfrey J., Holliman E., McDaniel J. Switchboard: telephone speech corpus for research and development // Proc. Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). San Francisco, USA, 1992. V. 1. P. 517–520. doi: 10.1109/ICASSP.1992.225858
5. Hinton G.E., Osindero S., Teh Y.-W. A fast learning algorithm for deep belief nets // Neural Computation. 2006. V. 18. N 7. P. 1527–1554. doi: 10.1162/neco.2006.18.7.1527
6. Vincent P., Larochelle H., Bengio Y., Manzagol P.-A. Extracting and composing robust features with denoising autoencoders // Proc. 25th International Conference on Machine Learning. Helsinki, Finland, 2008. P. 1096‒1103.
7. Bengio Y., Lamblin P., Popovici D., Larochelle H. Greedy layer-wise training of deep networks // Proc. 20th Annual Conf. on Neural Information Processing Systems (NIPS 2006). Vancouver, Canada, 2006. P. 153‒160.
8. Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlicek P., Qian Y., Schwarz P., Silovsky J., Stemmer G., Vesely K. The Kaldi speech recognition toolkit // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, USA, 2011. P. 1‒4.
9. Vesely K., Ghoshal A., Burget L., Povey D. Sequence-discriminative training of deep neural networks // Proc. of the Annual Conference of International Speech Communication Association (INTERSPEECH). Lyon, France, 2013. P. 2345‒2349.
10. Seide F., Li G., Yu D. Conversational speech transcription using context-dependent deep neural networks // Proc. of the Annual Conference of International Speech Communication Association (INTERSPEECH). Florence, Italy, 2011. P. 437‒440.
 



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика