doi: 10.17586/2226-1494-2015-15-5-886-892


УДК 004. 93

ПРИМЕНЕНИЕ МЕТОДА ЧАСТИЧНЫХ НАИМЕНЬШИХ КВАДРАТОВ ДЛЯ ОБРАБОТКИ И МОДЕЛИРОВАНИЯ АУДИОВИЗУАЛЬНОЙ РЕЧИ

Олейник А.Л.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Олейник А.Л. Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5. С. 886–892

Аннотация

Предмет исследования. Рассмотрена задача реконструкции изображения области рта по речевому сигналу с помо- щью метода частичных наименьших квадратов. Потребность в решении подобных задач возникает при создании методов обработки аудиовизуальной речи, которая содержит в себе звуковую и визуальную составляющие, называемые модальностями. Конкретные задачи, решаемые с помощью таких методов, включают в себя совместное модели- рование голоса и динамики движений губ, синхронизацию аудио- и видеопотоков, распознавание эмоций, обнаружение живости (liveness detection). Метод. Для решения поставленной задачи применен метод частичных наименьших квадратов. Метод позволяет выделить из исходных данных компоненты, между которыми существует ковариационная связь, и построить на их основе модель регрессии. Преимуществом такого подхода является возможность решения двух базовых задач: выявления скрытых связей между исходными данными (речевым сигналом и изображением области рта) и аппроксимации одних исходных данных по другим. Основные результаты. Экспериментальные исследования по реконструкции изображения области рта по речевому сигналу выполнены на аудиовизу альной речевой базе VidTIMIT. Полученные результаты позволяют сделать вывод о возможности применения метода частичных наименьших квадратов для решения задачи реконструкции. Практическая значимость. Результаты проведенного исследования позволяют утверждать, что метод частичных наименьших квадратов может быть успешно применен для решения широкого класса задач обработки аудиовизуальной речи: от синхронизации аудио- и ви- деопотоков до обнаружения живости. 


Ключевые слова: обработка аудиовизуальной речи, бимодальные речевые системы, метод частичных наименьших квадратов, ЧНК, методы проекции на подпространства, регрессия

Благодарности. Работа выполнена при государственной финансовой поддержке ведущих университетов Российской Федерации (субсидия 074-U01). Автор выражает искреннюю признательность научному руководителю, профессору Г.А. Кухареву, и заведующему кафедрой РИС Ю.Н. Матвееву за критические замечания и советы, которые помогли значительно улучшить качество настоящей статьи.

Список литературы

1. Chetty G., Wagner M. Liveness detection using cross-modal correlations in face-voice person authentication // Proc. 9th European Conference on Speech Communication and Technology. Lisbon, Portugal, 2005. P. 2181–2184.

2. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. V. 264. N 5588. P. 746–748.

3. Aghaahmadi M., Dehshibi M.M., Bastanfard A., Fazlali M. Clustering Persian viseme using phoneme subspace for developing visual speech application // Multimedia Tools and Applications. 2013. V. 65. N 3. P. 521–541. doi: 10.1007/s11042-012-1128-7

4. Pearson K. On lines and planes of closest fit to system of points in space // Philosophical Magazine. 1901. V. 2. N 6. P. 559–572.

5. Fisher R.A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. V. 7. N 2. P. 179–188.

6. Hotelling H. Relations between two sets of variates // Biometrika. 1936. V. 28. N ¾. P. 321–377.

7. Kukharev G., Kamenskaya E. Application of two-dimensional canonical correlation analysis for face image processing and recognition // Pattern Recognition and Image Analysis. 2010. V. 20. N 2. P. 210–219. doi: 10.1134/S1054661810020136

8. Кухарев Г.А., Каменская Е.И., Матвеев Ю.Н., Щеголева Н.Л. Методы обработки и распознавания изображений

10. Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge (AVEC 2013). Barselona, Spain, 2013. P. 21–29. doi: 10.1145/2512530.2512532

11. Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition // Proc. 15th ACM on International Conference on Multimodal Interaction (ICMI'13). Sydney, Australia, 2013. P. 525–530. doi: 10.1145/2522848.2531738

12. Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013). Portland, USA, 2013. P. 684–691. doi: 10.1109/CVPR.2013.94

13. Xie Z. Partial least squares regression on DCT domain for infrared face recognition // Proceedings of SPIE – Progress in Biomedical Optics and Imaging. 2014. V. 9230. Art. 92301I. doi: 10.1117/12.2068214

14. Abdi H. Partial least squares regression and projection on latent structure regression (PLS Regression) // Wiley Interdisciplinary Reviews: Computational Statistics. 2010. V. 2. N 1. P. 97–106. doi: 10.1002/wics.51

15. Эсбенсен К. Анализ многомерных данных. Черноголовка: ИПХФ РАН, 2005. 160 с.

16. Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference // Lecture Notes in Computer Science. 2009. V. 5558 LNCS. P. 199–208. doi: 10.1007/978-3-642-01793-3_21

17. Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction [Электронный ресурс]. Режим доступа: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlab свободный. Яз. англ. (дата обращения: 2015.06.12).

18. Huang X., Acero A., Hon H.W. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001. 1008 p.

19. Kukharev G., Tujaka A., Forczmanski P. Face recognition using two-dimensional CCA and PLS // International Journal of Biometrics. 2011. V. 3. N 4. P. 300–321. doi: 10.1504/IJBM.2011.042814



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика