НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2015-15-6-957-968
УДК 004.934
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ – ОСНОВНЫЕ ЭТАПЫ ЗА 50 ЛЕТ
Читать статью полностью
Ссылка для цитирования: Тампель И.Б. Автоматическое распознавание речи – основные этапы за 50 лет // Научно-технический вестник информационных технологий, механики и оптики. 2015. Том 15. № 6. С. 957–968.
Аннотация
Рассматриваются основные этапы развития систем автоматического распознавания речи за период около 50 лет. Сдела-на попытка оценить методы решения задачи с точки зрения приближения к функционированию биологических систем. За начало отсчета взято внедрение метода, основанного на алгоритме динамического программирования, в 1968 г. Рас-смотрены недостатки метода, позволяющие использовать его только для распознавания команд. Далее рассмотрен метод, основанный на формализме марковских цепей. На основании представления о коартикуляции показана необхо-димость перехода от моделирования фонем как цельных контекстно независимых объектов к моделированию контекстно зависимых трифонов и бифонов. Разъяснены проблемы обучения трифонов, объясняющиеся недостаточно-стью речевых баз данных, которые привели к методу связывания состояний. Показана роль методов адаптации моделей и нормализации признаков, обеспечивающих лучшую инвариантность к индивидуальным особенностям диктора, каналам связи, аддитивным шумам. В качестве самого современного метода автоматического распознавания речи рас-сматриваются глубокие нейронные сети и рекуррентные нейронные сети. Отмечено сходство глубоких (многослойных) нейронных сетей с биологическими системами. В заключении описаны проблемы и недостатки современных систем распознавания речи и дан прогноз их развития.
Благодарности. Исследование проводится при частичной финансовой поддержке Правительства Российской Федерации (грант № 074-U01).
Список литературы
1. Levin K., Ponomareva I., Bulusheva A., Chernykh G., Medennikov I., Merkin N., Prudnikov A., Tomashenko N. Automated closed captioning for Russian live broadcasting // Proceedings of the Annual Conference of the International Speech Communication Association INTERSPEECH. Singapore, 2014. P. 1438–1442.
2. Terry K. Instant patient records and all you have to do is talk // Medical Economics. 1999. V. 76. N 19. P. 101–102, 107–108, 111–112.
3. Zafar A., Overhage J.M., McDonald C.J. Continuous speech recognition for clinicians // Journal of the Amer-ican Medical Informatics Association.1999. V. 6. N 3. P. 195–204.
4. Goedart J. Speech recognition technology gives voice to clinical data // Health Data Management. 2002. V. 10. N 12. P. 30–32, 34, 36.
5. Zick R.G., Olsen J. Voice recognition software versus a traditional transcription service for physician charting in the ED // American Journal of Emergency Medicine. 2001. V. 19. N 4. P. 295–298.
6. Apple - iOS 8 - Siri [Электронный ресурс]. Режим доступа: http://www.apple.com/ru/ios/siri, свободный. Яз. рус. (дата обращения 10.10.2015).
7. Voco: Windows-приложение для преобразования речи в текст [Электронный ресурс]. Режим доступа: http://www.speechpro.ru/product/transcription/voco, свободный. Яз. рус. (дата обращения 10.10.2015).
8. Чистович Л.А., Венцов А.В., Гранстрем М.П. и др. Руководство по физиологии. Физиология речи. Вос-приятие речи человеком. Л.: Наука, 1976. 388 c.
9. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Prentice Hall, 2001. 1008 p.
10. The HTK book [Электронный ресурс]. Cambridge University Engineering Department. Режим доступа: http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf, свободный. Яз. англ. (дата обращения 22.10.2015).
11. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир. 1978. 414 с.
12. Hermansky H. Should recognizers have ears? // Speech Communication. 1998. V. 25. N 1¬–3. P. 3–27.
13. Винцюк Т.К. Распознавание слов устной речи методами динамического программирования // Кибер-нетика. 1968. № 1. С. 81–88.
14. Величко В.М., Загоруйко Н.Г. Автоматическое распознавание ограниченного набора устных команд // Вычислительные системы. 1969. № 36. С. 101–110.
15. Sakoe H., Chiba S. Dynamic programming algorithm optimization for spoken word recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1978. V. 64. P. 43–49. doi: 10.1109/TASSP.1978.1163055
16. Kullback S. Letter to the Editor: The Kullback-Leibler distance // The American Statistician. 1987. V. 41. N 4. P. 340–341.
17. Mansour D., Juang B.H. A family of distortion measures based upon projection operation for robust speech recognition // IEEE Transactions on Acoustics, Speech and Signal Processing. 1989. V. 37. N 11. P. 1659–1671. doi: 10.1109/29.46548
18. Itakura F., Saito S. Analysis synthesis telephony based on the maximum likelihood method // Proc. 6th Int. Congress on Acoustics. Los Alamitos, 1968. P. 17–20.
19. Фланаган Д.Л. Анализ, синтез и восприятие речи. М.: Связь. 1968. 394 с.
20. Baker J.K. The dragon system – an overview // IEEE Transactions on Acoustics, Speech, and Signal Pro-cessing. 1975. V. ASSP 23. N 1. P. 24–29.
21. Jelinek F. Continuous speech recognition by statistical methods // Proc. of IEEE. 1976. V. 64. N 4. P. 532–556. doi: 10.1109/PROC.1976.10159
22. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceed-ings of the IEEE. 1989. V. 77. N 2. P. 257–286. doi: 10.1109/5.18626
23. Ramesh P., Wilpon J.G. Modeling state durations in hidden Markov models for automatic speech recognition // IEEE Transactions on Acoustics, Speech, and Signal Processing (ICASSP-92). San Francisco, USA, 1992. V. 1. P. 381–384.
24. Bonafonte A., Ros X., Marifio J.B. An efficient algorithm to find the best state sequence in HSMM // Proc. 3rd European Conf. on Speech, Communication and Technology (EUROSPEECH’93). Berlin, Germany, 1993. P. 1547–1550.
25. Burshtein D. Robust parametric modeling of durations in hidden Markov models // IEEE Transactions on Speech and Audio Processing. 1996. V. 4. N 3. P. 240–242. doi: 10.1109/89.496221
26. Pylkkönen J. Phone Duration Modeling Techniques in Continuous Speech Recognition. Master’s Thesis. [Электронный ресурс]. Helsinki University of Technology, 2004. Режим доступа: http://users.ics.aalto.fi/jpylkkon/mt.pdf, свободный. Яз. англ. (дата обращения 18.10.2015).
27. Introduction to Automatic Speech Recognition. [Электронный ресурс]. MIT, 2003. Режим доступа: http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/lecture-notes/lecture1.pdf, свободный. Яз. англ. (дата обращения 23.10.2015).
28. Sakti S., Markov K., Nakamura S. Incorporation of pentaphone-context dependency based on hybrid HMM/BN acoustic modeling framework // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Toulouse, France, 1996. V. 1. P. I1177–I1180.
29. Shafran I., Ostendorf M. Use of higher level linguistic structure in acoustic modeling for speech recognition // Proc. IEEE Int. Conf. on Acoustic Signal and Speech Processing. Istanbul, Turkey, 2000. V. 2. P. 1021–1024.
30. Odell J.J. The Use of Context in Large Vocabulary Speech Recognition. [Электронный ресурс]. 1995. Ре-жим доступа: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.49.7786, свободный. Яз. англ. (дата обращения 18.10.2015).
31. Digalakis V., Murveit H. Genones: optimizing the degree of mixture tying in a large vocabulary hidden Mar-kov model-based speech recognizer // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP). Adelaide, South Australia, 1994. V. 1. P. 537–540.
32. Molau S., Kanthak S., Ney H. Efficient vocal tract normalization in automatic speech recognition // Konf. Elektron. Sprachsignalverarbeitung. Cottbus, 2000. P. 209–216.
33. Hain T., Woodland P.C., Niesler T.R., Whittacker E.W.D. 1998 HTK system for transcription of conversation-al telephone speech // Proc. Int. Conf. on Acoustics, Speech and Signal Processing. 1999. V. 1. P. 57–60.
34. Gauvain J.-L., Lee C.-H. Maximum a posteriori estimation of multivariate Gaussian mixture observations of Markov chains // IEEE Transactions on Speech and Audio Processing. 1994. V. 2. N 2. P. 291–298. doi: 10.1109/89.279278
35. Leggetter C.J., Woodland P.C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models // Computer Speech and Language. 1995. V. 9. N 2. P. 171–185. doi: 10.1006/csla.1995.0010
36. Gales M.J.F., Woodland P.C. Mean and variance adaptation within the MLLR framework // Comput-er Speech and Language. 1996. V. 10. N 4. P. 249–264. doi: 10.1006/csla.1996.0013
37. Digalakis V.V., Rtischev D., Neumeyer L. Speaker adaptation using constrained estimation of Gaussian mix-tures // IEEE Transactions on Speech and Audio Processing. 1995. V. 3. N 5. P. 357–366. doi: 10.1109/89.466659
38. Nguen P. Fast Speaker Adaptation [Электронный ресурс]. 1998. Режим доступа: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.127.8771&rep=rep1&type=pdf, свободный. Яз. англ. (дата обращения 18.10.2015).
39. Kuhn R., Junqua J.-C., Nguen P., Niedzielski N. Rapid speaker adaptation in eigenvoice space // IEEE Trans-actions on Speech and Audio Processing. 2000. V. 8. N 6. P. 695–706. doi: 10.1109/89.876308
40. Kalini O., Seltzer M.L., Droppo J., Acero A. Noise adaptive training for robust automatic speech recognition // IEEE Transactions on Audio, Speech and Language Processing. 2010. V.18. N 8. P. 1889–1901. doi: 10.1109/TASL.2010.2040522
41. Bourlard H., Wellekens C.J. Links between Markov models and multilayer perceptrons // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1990. V. 12. N 12. P. 1167–1178. doi: 10.1109/34.62605
42. Bourlard H., Hermansky H., Morgan N. Towards increasing speech recognition error rates // Speech Com-munication. 1996. V. 18. N 3. P. 205–231. doi: 10.1016/0167-6393(96)00003-9
43. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neu-ral Networks. 1989. V. 2. N 5. P. 359–366. doi: 10.1016/0893-6080(89)90020-8
44. Hinton G., Deng L., Yu D., Dahl G., Mohamed A.-R., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T., Kingsbury B. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups // IEEE Signal Processing Magazine. 2012. V. 29. N 6. P. 82–97. doi: 10.1109/MSP.2012.2205597
45. Dong Yu, Li Deng. Automatic Speech Recognition. A Deep Learning Approach. London: Springer, 2015. 321 p. doi: 10.1007/978-1-4471-5779-3
46. Hermansky H., Ellis D., Sharma S. Tandem connectionist feature extraction for conventional HMM systems // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Istanbul, Turkey, 2000. V. 3. P. 1635–1638.
47. Robinson A.J. An application of recurrent nets to phone probability estimation // IEEE Transactions on Neu-ral Networks. 1994. V. 5. N 2. P. 298–305. doi: 10.1109/72.279192
48. Robinson T., Hochberg M., Renals S. The use of recurrent neural networks in continuous speech recognition / In: Automatic Speech and Speaker Recognition. Advanced Topics / Eds. C.H. Lee, F.K. Soong, K. Paliwal. Kluwer Academic Publishers, 1996. 518 p. doi: 10.1007/978-1-4613-1367-0
49. Schwarz P. Phoneme Recognition Based on Long Temporal Context. Ph.D. Thesis [Электронный ресурс]. Brno University of Technology, 2008. Режим доступа: http://www.fit.vutbr.cz/~schwarzp/publi/thesis.pdf, свободный. Яз. англ. (дата обращения 18.10.2015).
50. Triefenbach F., Demuynck K., Martens J.-P. Large vocabulary continuous speech recognition with reservoir-based acoustic models // IEEE Signal Processing Letters. 2014. V. 21. N. 3. P. 311–315. doi: 10.1109/LSP.2014.2302080