ОБЪЕДИНЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ ОБУЧЕНИЯ НЕЙРОСЕТЕВЫХ 
АКУСТИЧЕСКИХ МОДЕЛЕЙ

Романенко  Алексей  Николаевич

doi:10.17586/2226-1494-2018-18-2-350-352

2018 , ТОМ 18, НОМЕР 2 ( март-апрель )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2018-18-2-350-352

УДК 004.93

ОБЪЕДИНЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ ОБУЧЕНИЯ НЕЙРОСЕТЕВЫХ АКУСТИЧЕСКИХ МОДЕЛЕЙ

Романенко А.Н.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования: Романенко А.Н. Объединение признаков в задаче обучения нейросетевых акустических моделей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 350–352. doi: 10.17586/2226-1494-2018-18-2-350-352

Аннотация

Предложен метод объединения признаков для задачи обучения нейросетевых акустических моделей с целью повышения качества распознавания речи. В отличие от способа подачи на вход нейронной сети конкатенированного вектора признаков различной природы, предлагаемый метод использует отложенное объединение на уровне скрытых слоев. Оно реализуется за счет использования индивидуальных входных потоков для каждого типа признаков. Такие потоки способны извлекать паттерны, характерные для каждого типа признаков, а затем объединять их на скрытом слое нейросетевой акустической модели. Влияние метода на качество системы было исследовано в задаче распознавания телефонной русской речи. Предложенный метод позволил добиться 0,41% абсолютного уменьшения пословной ошибки распознавания относительно конкатенации признаков и 1,35% в сравнении с наилучшей системой, использующей один вид признаков. Результаты работы могут быть использованы при разработке систем автоматического распознавания речи.

Ключевые слова: объединение признаков, нейросетевые акустические модели, распознавание речи

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9971.2017/ДААД.

Список литературы

Siohan O., Rybach D. Multitask learning and system combination for automatic speech recognition // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 589–595. doi: 10.1109/ASRU.2015.7404849
Saon G., Kurata G., Sercu T. et al. English conversational telephone speech recognition by humans and machines // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 132–136. doi: 10.21437/Interspeech.2017-405
Narang S., Elsen E., Diamos G., Sengupta S. Exploring sparsity in recurrent neural networks // Proc. International Conference on Learning Representations (ICLR). Toulon, France, 2017. arXiv:1704.05119
Zolnay A., Schluter R., Ney H. Acoustic feature combination for robust speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Philadelphia, USA, 2005. P. I457–I460. doi: 10.1109/ICASSP.2005.1415149
Pulkki V., Karjalainen M. Communication Acoustics: An Introduction to Speech, Audio and Psychoacoustics. Wiley, 2015. 454 p.
Ghahremani P., BabaAli B., Povey D. at al. A pitch extraction algorithm tuned for automatic speech recognition // Proc. Int. Conf. on Acoustics, Speech and Signal Processing. Florence, Italy, 2014. P. 2494–2498. doi: 10.1109/ICASSP.2014.6854049
Grezl F., Karafiat M., Kontar S. Probabilistic and bottle-neck features for LVCSR of meetings // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA, 2007. V. 4. P. IV757–IV760. doi: 10.1109/ICASSP.2007.367023
Меденников И.П. Дикторо-зависимые признаки для распознавания спонтанной речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 195–197. doi:10.17586/2226-1494-2016-16-1-195-197
Khokhlov Y., Medennikov I., Romanenko A. et al. The STC keyword search system for OpenKWS 2016 evaluation // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 3602–3606. doi: 10.21437/Interspeech.2017-1212
Меденников И.П. Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи: дис. … канд. техн. наук. СПб, 2016. 200 с.
Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proc. INTERSPEECH. Dresden, Germany, 2015. P. 3214–3218.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License