НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2016-16-4-703-709
УДК 004.93
РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ ДЛЯ ЕГИПЕТСКОГО ДИАЛЕКТА АРАБСКОГО ЯЗЫКА В ТЕЛЕФОННОМ КАНАЛЕ
Читать статью полностью
Ссылка для цитирования: Романенко А.Н. Разработка системы автоматического распознавания речи для египетского диалекта арабского языка в телефонном канале // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 4. С. 703–709. doi: 10.17586/2226-1494-2016-16-4-703-709
Аннотация
Приводится описание ряда систем автоматического распознавания речи для египетского диалекта арабского языка, построенных на основе набора данных CALLHOME Egyptian. Присутствует описание как классических систем, основанных на скрытых марковских моделях и смеси гауссовых распределений, так и акустических моделей на основе глубоких нейронных сетей. Продемонстрирован вклад от использования дикторозависимых акустических признаков (bottleneck), для извлечения которых были обучены три экстрактора на основе нейронных сетей. Для обучения экстракторов были использованы три набора данных на различных языках: русский, английский и различных диалектах арабского. Исследована возможность использования набора данных современного стандартного арабского языка малого объема для получения фонетических транскрипций. Эксперименты показали, что использование экстрактора, полученного на основе русскоязычного набора данных, позволяет значительно повысить качество распознавания арабской речи. Также установлено, что, хотя использование фонетических транскрипций, основанных на современном стандартном арабском, снижает качество распознавания, все же результаты работы системы остаются применимыми на практике. Дополнительно проведено исследование применения полученных моделей для решения задачи поиска ключевых слов. Полученные системы демонстрируют качество распознавания, сравнимое с современными опубликованными результатами. Предложены дальнейшие пути увеличения качества распознавания.
Список литературы
1. Kirchhoff K., Bilmes J., Das S., Duta N., Egan M., Ji G., He F., Henderson J., Liu D., Noamany M., Schone P., Schwartz R., Vergyri D. Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins Summer Workshop // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Hong Kong, 2003. V. 1. P. 344–347.
2. Human Development Report 2006. Beyond Scarcity: Power, Poverty and Global Water Crisis. Palgrave Macmillan, UK, 2006. P. 297–300.
3. Habash N., Eskander R., Hawwari A. A morphological analyzer for egyptian arabic // NAACL-HLT 2012 Workshop on Computational Morphology and Phonology (SIGMOR-PHON2012). 2012. P. 1–9.
4. Elmahdy M., Hasegawa-Johnson M., Mustafawi E., Duwairi R., Minker W. Challenges and techniques for dialectal arabic speech recognition and machine translation // Proc. Qatar Foundation Annual Research Forum. Doha, 2011.
5. Elmahdy M., Hasegawa-Johnson M., Mustafawi E. Hybrid phonemic and graphemic modeling for arabic speech recognition // International Journal of Computational Linguistics. 2012. V. 3. N 1. P. 88–96.
6. Ali A., Mubarak H., Vogel S. Advances in dialectal arabic speech recognition: a study using twitter to improve Egyptian ASR // Proc. Int. Workshop on Spoken Language Translation (IWSLT 2014). South Lake Tahoe, USA, 2014. P. 156–162.
7. El-Desoky Mousa A., Kuo H.-K.J., Mangu L., Soltau H. Morpheme-based feature-rich language models using Deep Neural Networks for LVCSR of Egyptian Arabic // Proc. 38th IEEE Int. Conf. on Acoustics Speech and Signal Processing (ICASSP). Vancouver, Canada, 2013. P. 8435–8439. doi: 10.1109/ICASSP.2013.6639311
8. Ali A., Zhang Y., Cardinal P., Dahak N., Vogel S., Glass J. A complete KALDI recipe for building Arabic speech recognition systems // Proc. IEEE Workshop on Spoken Language Technology. South Lake Tahoe, USA, 2014. P. 525–529. doi: 10.1109/SLT.2014.7078629
9. Thomas S.W., Saon G., Kuo H.-K., Mangu L. The IBM BOLT speech transcription system // Proc. 6th Annual Conference of the International Speech Communication Association. Dresden, Germany, 2015. P. 3150–3153.
10. Trmal J., Chen G., Povey D., Khudanpur S. et. al. A keyword search system using open source software // Proc. IEEE Workshop on Spoken Language Technology. South Lake Tahoe, USA, 2014. P. 530–535.
11. Povey D., Ghoshal A. et al. The Kaldi speech recognition toolkit // Proc. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Waikoloa, Hawaii, USA, 2011.
12. Liu F., Stern R., Huang X., Acero A. Efficient cepstral normalization for robust speech recognition // Proc. ARPA Workshop on Human Language Technology. Princeton, 1993. P. 69–74. doi: 10.3115/1075671.1075688
13. Senoussaoui M., Kenny P., Dehak N., Dumouchel P. An i-vector extractor suitable for speaker recognition with both microphone and telephone speech // Odyssey 2010. The Speaker and Language Recognition Workshop. Brno, Czech Republic, 2010. P. 28–33.
14. Gehring J., Miao Y., Metze F., Waibel A. Extracting deep bottleneck features using stacked auto-encoders // Proc. 38th IEEE Int. Conf. on Acoustics Speech and Signal Processing (ICASSP). Vancouver, Canada, 2013. P. 3377–3381. doi: 10.1109/ICASSP.2013.6638284
15. Xin L., Hamaker J., He X. Robust feature space adaptation for telephony speech recognition // Proc. 9th Int. Conf. on Spoken Language Processing. Pittsburgh, USA, 2006. P. 773–776.
16. Vesely K., Ghoshal A., Burget L., Povey D. Sequence-discriminative training of deep neural networks // Proc. 14th Annual Conf. of the International Speech Communication. Lyon, France, 2013. P. 2345–2349.