DOI: 10.17586/2226-1494-2018-18-2-350-352


УДК004.93

ОБЪЕДИНЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ ОБУЧЕНИЯ НЕЙРОСЕТЕВЫХ АКУСТИЧЕСКИХ МОДЕЛЕЙ

Романенко А. Н.


Язык статьи - русский

Ссылка для цитирования: Романенко А.Н. Объединение признаков в задаче обучения нейросетевых акустических моделей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 350–352. doi: 10.17586/2226-1494-2018-18-2-350-352

Аннотация
Предложен метод объединения признаков для задачи обучения нейросетевых акустических моделей с целью повышения качества распознавания речи. В отличие от способа подачи на вход нейронной сети конкатенированного вектора признаков различной природы, предлагаемый метод использует отложенное объединение на уровне скрытых слоев. Оно реализуется за счет использования индивидуальных входных потоков для каждого типа признаков. Такие потоки способны извлекать паттерны, характерные для каждого типа признаков, а затем объединять их на скрытом слое нейросетевой акустической модели. Влияние метода на качество системы было исследовано в задаче распознавания телефонной русской речи. Предложенный метод позволил добиться 0,41% абсолютного уменьшения пословной ошибки распознавания относительно конкатенации признаков и 1,35% в сравнении с наилучшей системой, использующей один вид признаков. Результаты работы могут быть использованы при разработке систем автоматического распознавания речи.

Ключевые слова: объединение признаков, нейросетевые акустические модели, распознавание речи

Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9971.2017/ДААД.

Список литературы
  1. Siohan O., Rybach D. Multitask learning and system combination for automatic speech recognition // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 589–595. doi: 10.1109/ASRU.2015.7404849
  2. Saon G., Kurata G., Sercu T. et al. English conversational telephone speech recognition by humans and machines // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 132–136. doi: 10.21437/Interspeech.2017-405
  3. Narang S., Elsen E., Diamos G., Sengupta S. Exploring sparsity in recurrent neural networks // Proc. International Conference on Learning Representations (ICLR). Toulon, France, 2017. arXiv:1704.05119
  4. Zolnay A., Schluter R., Ney H. Acoustic feature combination for robust speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Philadelphia, USA, 2005. P. I457–I460. doi: 10.1109/ICASSP.2005.1415149
  5. Pulkki V., Karjalainen M. Communication Acoustics: An Introduction to Speech, Audio and Psychoacoustics. Wiley, 2015. 454 p.
  6. Ghahremani P., BabaAli B., Povey D. at al. A pitch extraction algorithm tuned for automatic speech recognition // Proc. Int. Conf. on Acoustics, Speech and Signal Processing. Florence, Italy, 2014. P. 2494–2498. doi: 10.1109/ICASSP.2014.6854049
  7. Grezl F., Karafiat M., Kontar S. Probabilistic and bottle-neck features for LVCSR of meetings // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA, 2007. V. 4. P. IV757–IV760. doi: 10.1109/ICASSP.2007.367023
  8. Меденников И.П. Дикторо-зависимые признаки для распознавания спонтанной речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 195–197. doi:10.17586/2226-1494-2016-16-1-195-197
  9. Khokhlov Y., Medennikov I., Romanenko A. et al. The STC keyword search system for OpenKWS 2016 evaluation // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 3602–3606. doi: 10.21437/Interspeech.2017-1212
  10. Меденников И.П. Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи: дис. … канд. техн. наук. СПб, 2016. 200 с.
  11. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proc. INTERSPEECH. Dresden, Germany, 2015. P. 3214–3218.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2018 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика