Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2018-18-2-350-352
УДК 004.93
ОБЪЕДИНЕНИЕ ПРИЗНАКОВ В ЗАДАЧЕ ОБУЧЕНИЯ НЕЙРОСЕТЕВЫХ АКУСТИЧЕСКИХ МОДЕЛЕЙ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования: Романенко А.Н. Объединение признаков в задаче обучения нейросетевых акустических моделей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 350–352. doi: 10.17586/2226-1494-2018-18-2-350-352
Аннотация
Ссылка для цитирования: Романенко А.Н. Объединение признаков в задаче обучения нейросетевых акустических моделей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 350–352. doi: 10.17586/2226-1494-2018-18-2-350-352
Аннотация
Предложен метод объединения признаков для задачи обучения нейросетевых акустических моделей с целью повышения качества распознавания речи. В отличие от способа подачи на вход нейронной сети конкатенированного вектора признаков различной природы, предлагаемый метод использует отложенное объединение на уровне скрытых слоев. Оно реализуется за счет использования индивидуальных входных потоков для каждого типа признаков. Такие потоки способны извлекать паттерны, характерные для каждого типа признаков, а затем объединять их на скрытом слое нейросетевой акустической модели. Влияние метода на качество системы было исследовано в задаче распознавания телефонной русской речи. Предложенный метод позволил добиться 0,41% абсолютного уменьшения пословной ошибки распознавания относительно конкатенации признаков и 1,35% в сравнении с наилучшей системой, использующей один вид признаков. Результаты работы могут быть использованы при разработке систем автоматического распознавания речи.
Ключевые слова: объединение признаков, нейросетевые акустические модели, распознавание речи
Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9971.2017/ДААД.
Список литературы
Благодарности. Работа выполнена при поддержке Министерства образования и науки Российской Федерации, госзадание № 8.9971.2017/ДААД.
Список литературы
-
Siohan O., Rybach D. Multitask learning and system combination for automatic speech recognition // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, USA, 2015. P. 589–595. doi: 10.1109/ASRU.2015.7404849
-
Saon G., Kurata G., Sercu T. et al. English conversational telephone speech recognition by humans and machines // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 132–136. doi: 10.21437/Interspeech.2017-405
-
Narang S., Elsen E., Diamos G., Sengupta S. Exploring sparsity in recurrent neural networks // Proc. International Conference on Learning Representations (ICLR). Toulon, France, 2017. arXiv:1704.05119
-
Zolnay A., Schluter R., Ney H. Acoustic feature combination for robust speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Philadelphia, USA, 2005. P. I457–I460. doi: 10.1109/ICASSP.2005.1415149
-
Pulkki V., Karjalainen M. Communication Acoustics: An Introduction to Speech, Audio and Psychoacoustics. Wiley, 2015. 454 p.
-
Ghahremani P., BabaAli B., Povey D. at al. A pitch extraction algorithm tuned for automatic speech recognition // Proc. Int. Conf. on Acoustics, Speech and Signal Processing. Florence, Italy, 2014. P. 2494–2498. doi: 10.1109/ICASSP.2014.6854049
-
Grezl F., Karafiat M., Kontar S. Probabilistic and bottle-neck features for LVCSR of meetings // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Honolulu, USA, 2007. V. 4. P. IV757–IV760. doi: 10.1109/ICASSP.2007.367023
-
Меденников И.П. Дикторо-зависимые признаки для распознавания спонтанной речи // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 1. С. 195–197. doi:10.17586/2226-1494-2016-16-1-195-197
-
Khokhlov Y., Medennikov I., Romanenko A. et al. The STC keyword search system for OpenKWS 2016 evaluation // Proc. INTERSPEECH. Stockholm, Sweden, 2017. P. 3602–3606. doi: 10.21437/Interspeech.2017-1212
-
Меденников И.П. Методы, алгоритмы и программные средства распознавания русской телефонной спонтанной речи: дис. … канд. техн. наук. СПб, 2016. 200 с.
-
Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proc. INTERSPEECH. Dresden, Germany, 2015. P. 3214–3218.