НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2015-15-5-886-892
УДК 004. 93
ПРИМЕНЕНИЕ МЕТОДА ЧАСТИЧНЫХ НАИМЕНЬШИХ КВАДРАТОВ ДЛЯ ОБРАБОТКИ И МОДЕЛИРОВАНИЯ АУДИОВИЗУАЛЬНОЙ РЕЧИ
Читать статью полностью
Ссылка для цитирования: Олейник А.Л. Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5. С. 886–892
Аннотация
Предмет исследования. Рассмотрена задача реконструкции изображения области рта по речевому сигналу с помо- щью метода частичных наименьших квадратов. Потребность в решении подобных задач возникает при создании методов обработки аудиовизуальной речи, которая содержит в себе звуковую и визуальную составляющие, называемые модальностями. Конкретные задачи, решаемые с помощью таких методов, включают в себя совместное модели- рование голоса и динамики движений губ, синхронизацию аудио- и видеопотоков, распознавание эмоций, обнаружение живости (liveness detection). Метод. Для решения поставленной задачи применен метод частичных наименьших квадратов. Метод позволяет выделить из исходных данных компоненты, между которыми существует ковариационная связь, и построить на их основе модель регрессии. Преимуществом такого подхода является возможность решения двух базовых задач: выявления скрытых связей между исходными данными (речевым сигналом и изображением области рта) и аппроксимации одних исходных данных по другим. Основные результаты. Экспериментальные исследования по реконструкции изображения области рта по речевому сигналу выполнены на аудиовизу альной речевой базе VidTIMIT. Полученные результаты позволяют сделать вывод о возможности применения метода частичных наименьших квадратов для решения задачи реконструкции. Практическая значимость. Результаты проведенного исследования позволяют утверждать, что метод частичных наименьших квадратов может быть успешно применен для решения широкого класса задач обработки аудиовизуальной речи: от синхронизации аудио- и ви- деопотоков до обнаружения живости.
Благодарности. Работа выполнена при государственной финансовой поддержке ведущих университетов Российской Федерации (субсидия 074-U01). Автор выражает искреннюю признательность научному руководителю, профессору Г.А. Кухареву, и заведующему кафедрой РИС Ю.Н. Матвееву за критические замечания и советы, которые помогли значительно улучшить качество настоящей статьи.
Список литературы
1. Chetty G., Wagner M. Liveness detection using cross-modal correlations in face-voice person authentication // Proc. 9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005. P. 2181–2184.
2. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. V. 264. N 5588. P. 746–748.
3. Aghaahmadi M., Dehshibi M.M., Bastanfard A., Fazlali M. Clustering Persian viseme using phoneme subspace for developing visual speech application // Multimedia Tools and Applications. 2013. V. 65. N 3. P. 521–541. doi: 10.1007/s11042-012-1128-7
4. Pearson K. On lines and planes of closest fit to system of points in space // Philosophical Magazine. 1901. V. 2. N 6. P. 559–572.
5. Fisher R.A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. V. 7. N 2. P. 179–188.
6. Hotelling H. Relations between two sets of variates // Biometrika. 1936. V. 28. N ¾. P. 321–377.
7. Kukharev G., Kamenskaya E. Application of two-dimensional canonical correlation analysis for face image processing and recognition // Pattern Recognition and Image Analysis. 2010. V. 20. N 2. P. 210–219. doi: 10.1134/S1054661810020136
8. Кухарев Г.А., Каменская Е.И., Матвеев Ю.Н., Щеголева Н.Л. Методы обработки и распознавания изображений
10. Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge (AVEC 2013). Barselona, Spain, 2013. P. 21–29. doi: 10.1145/2512530.2512532
11. Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition // Proc. 15th ACM on International Conference on Multimodal Interaction (ICMI'13). Sydney, Australia, 2013. P. 525–530. doi: 10.1145/2522848.2531738
12. Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013). Portland, USA, 2013. P. 684–691. doi: 10.1109/CVPR.2013.94
13. Xie Z. Partial least squares regression on DCT domain for infrared face recognition // Proceedings of SPIE – Progress in Biomedical Optics and Imaging. 2014. V. 9230. Art. 92301I. doi: 10.1117/12.2068214
14. Abdi H. Partial least squares regression and projection on latent structure regression (PLS Regression) // Wiley Interdisciplinary Reviews: Computational Statistics. 2010. V. 2. N 1. P. 97–106. doi: 10.1002/wics.51
15. Эсбенсен К. Анализ многомерных данных. Черноголовка: ИПХФ РАН, 2005. 160 с.
16. Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference // Lecture Notes in Computer Science. 2009. V. 5558 LNCS. P. 199–208. doi: 10.1007/978-3-642-01793-3_21
17. Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction [Электронный ресурс]. Режим доступа: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab свободный. Яз. англ. (дата обращения: 2015.06.12).
18. Huang X., Acero A., Hon H.W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001. 1008 p.
19. Kukharev G., Tujaka A., Forczmanski P. Face recognition using two-dimensional CCA and PLS // International Journal of Biometrics. 2011. V. 3. N 4. P. 300–321. doi: 10.1504/IJBM.2011.042814