doi: 10.17586/2226-1494-2018-18-2-243-254


УДК 004.93

ОБРАБОТКА И АНАЛИЗ ЗВУКОВОЙ И ВИЗУАЛЬНОЙ СОСТАВЛЯЮЩИХ РЕЧИ НА ОСНОВЕ ПРОЕКЦИОННЫХ МЕТОДОВ

Олейник А.Л.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Олейник А.Л. Обработка и анализ звуковой и визуальной составляющих речи на основе проекционных методов // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 243–254. doi: 10.17586/2226-1494-2018-18-2-243-254

Аннотация

Предмет исследования. Рассмотрена задача взаимной реконструкции (преобразования) звуковой и визуальной составляющих (модальностей) речевого сигнала. Аудиозапись голоса представляет звуковую составляющую, а снятая параллельно с ней видеозапись лица человека образует визуальную составляющую. Так как эти модальности обладают различной физической природой, их совместный анализ и обработка сопровождаются рядом трудностей и проблем. Многие из них можно преодолеть с помощью методов взаимной реконструкции. Метод. Предложенный подход основан на анализе главных компонент (PrincipalComponentAnalysis, PCA), множественной линейной регрессии, регрессии частичных наименьших квадратов (PartialLeastSquares, PLS), а также на алгоритме кластеризации K-средних. Также подробно рассмотрены вопросы предобработки исходных данных. В качестве звуковых признаков использованы мел-частотные кепстральные коэффициенты (Mel-FrequencyCepstralCoefficients, MFCC), а в качестве визуальных – набор из 20 опорных точек, представляющих контур рта. Основные результаты. В рамках экспериментальных исследований выполнена реконструкция опорных точек контура рта из MFCC. Эксперименты проведены на аудиовизуальной англоязычной базе VidTIMIT. Представлены варианты реализации предложенного подхода на основе PCAи регрессии PLSс кластеризацией и без нее (четыре варианта). Количественная (объективная) и качественная (субъективная) оценки подтвердили работоспособность предложенного подхода; наилучшие результаты показала реализация на основе регрессии PLSс предварительной кластеризацией. Практическая значимость. На основе предложенного подхода могут быть разработаны бимодальные биометрические системы, управляемые голосом виртуальные двойники («аватары»), системы контроля доступа к мобильным устройствам и другие решения в области аудиовизуальных человеко-машинных интерфейсов. Показано, что при правильной организации вычислений использование методов PCAи PLSпозволяет значительно сократить вычислительные затраты. Отказ от кластеризации также позволяет повысить быстродействие за счет некоторого снижения качества реконструкции.


Ключевые слова: бимодальные речевые системы, реконструкция, анализ главных компонент, кластеризация, метод частичных наименьших квадратов, регрессия

Благодарности. Исследования выполнены за счет стартового финансирования Университета ИТМО.

Список литературы
 
  1. Иванько Д.В., Карпов А.А. Анализ перспектив применения высокоскоростных камер для распознавания динамической видеоинформации // Труды СПИИРАН. 2016. № 1. С. 98–113.doi: 10.15622/SP.44.7
  2. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. V. 264. N 5588. P. 746–748.
  3. Atrey P.K., Hossain M.A., El Saddik A., Kankanhalli M.S. Multimodal fusion for multimedia analysis: a survey // Multimedia Systems. 2010. V. 16. N 6. P. 345–379. doi: 10.1007/s00530-010-0182-0
  4. Nefian A.V., Liang L., Pi X. et al. A coupled HMM for audio-visual speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. 2002. V. 2. P. 2013–2016. doi: 10.1109/ICASSP.2002.5745027
  5. Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // Автоматика и телемеханика. 2014. № 12. С. 125–138.
  6. Pachoud S., Gong S., Cavallaro A. Space-time audio-visual speech recognition with multiple multi-class probabilistic support vector machines // Proc. Auditory-Visual Speech Processing AVSP. Norwich, UK, 2009. P. 155–160.
  7. Hammami I., Mercies G., Hamouda A. The Kohonen map for credal fusion of heterogeneous data // Proc. IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Milan, Italy, 2015. P. 2947–2950. doi: 10.1109/IGARSS.2015.7326433
  8. Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9. N 8. P. 1735–1780. doi: 10.1162/neco.1997.9.8.1735
  9. Jaeger H. The «echo state» approach to analysing and training recurrent neural networks - with an erratum note // GMD Technical Report 148, German National Research Center for Information Technology,2001. 13 p.
  10. LeCun Y. et al. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. N 11. P. 2278–2324. doi: 10.1109/5.726791
  11. Hou J.-C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wan H.M. Audio-visual speech enhancement based on multimodal deep convolutional neural network // ArXiv Prepr. ArXiv170310893. 2017.
  12. Noda K., Yamaguchi Y., Nakadai K., Okuno H.G., Ogata T. Audio-visual speech recognition using deep learning // Applied Intelligence. 2015. V. 42. N 4. P. 722–737. doi: 10.1007/s10489-014-0629-7
  13. Ren J., Hu Y., Tai Y.W. et al. Look, listen and learn - a multimodal LSTM for speaker identification // Proc. 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016. P. 3581–3587.
  14. Кухарев Г.А., Каменская Е.И., Матвеев Ю.Н., Щеголева Н.Л. Методы обработки и распознавания изображений лиц в задачах биометрии / под ред. М.В. Хитрова. СПб.: Политехника, 2013. 388 с.
  15. Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge (AVEC 2013). Barselona, Spain, 2013. P. 21–29. doi: 10.1145/2512530.2512532
  16. Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition // Proc. 15th ACM on Int. Conf. on Multimodal Interaction. Sydney, Australia, 2013. P. 525–530. doi: 10.1145/2522848.2531738
  17. Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013). Portland, USA, 2013. P. 684–691. doi: 10.1109/CVPR.2013.94
  18. Sargin M.E., Yemez Y., Erzin E., Tekalp A.M. Audiovisual synchronization and fusion using canonical correlation analysis // IEEE Transactions on Multimedia. 2007. V. 9. N 7. P. 1396–1403. doi: 10.1109/TMM.2007.906583
  19. Sigg C., Fischer B., Ommer B., Roth V., Buhmann J. Nonnegative CCA for audiovisual source separation // Proc. 17th IEEE Int. Workshop on Machine Learning for Signal Processing. Thessaloniki, Greece, 2007. P. 253–258. doi: 10.1109/MLSP.2007.4414315
  20. Lee J.-S., Ebrahimi T. Two-level bimodal association for audio-visual speech recognition // Lecture Notes in Computer Science. 2009. V. 5807. P. 133–144.doi: 10.1007/978-3-642-04697-1_13
  21. De Bie T., Cristianini N., Rosipal R. Eigenproblems in pattern recognition / In: Handbook of Geometric Computing. Ed. E.B. Corrochano. Berlin, Springer, 2005. P. 129–167. doi: 10.1007/3-540-28247-5_5
  22. Эсбенсен К. Анализ многомерных данных. Черноголовка: ИПХФ РАН, 2005. 160 с.
  23. Prasad N.V., Umesh S. Improved cepstral mean and variance normalization using Bayesian framework // Proc. 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. 2013. P. 156–161. doi: 10.1109/ASRU.2013.6707722
  24. OpenCVLibrary[Электронный ресурс]. URL: http://opencv.org(дата обращения: 20.01.2018).
  25. Kazemi V., Sullivan J. One millisecond face alignment with an ensemble of regression trees // Proc. IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014. P. 1867–1874. doi: 10.1109/CVPR.2014.241
  26. dlibC++ Library[Электронный ресурс]. URL: http://dlib.net(дата обращения: 20.01.2018).
  27. Олейник А.Л. Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5.
    С. 886–892. doi: 10.17586/2226-1494-2015-15-5-886-892
  28. SoX - Sound eXchange. HomePage [Электронныйресурс]. URL: http://sox.sourceforge.net(дата обращения: 09.09.2017).
  29. Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction [Электронныйресурс]. Режим доступа: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlabсвободный. Яз. англ. (дата обращения: 20.01.2018).
  30. The VidTIMIT Audio-Video Database [Электронныйресурс]. URL: http://conradsanderson.id.au/vidtimit/ (дата обращения: 20.01.2018).
  31. Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference // Lecture Notes in Computer Science. 2009. V. 5558. P. 199–208. doi: 10.1007/978-3-642-01793-3_21
  32. Benton A., Khayrallah H., Gujral B., Reisinger D.A., Zhang S., Arora R. Deep generalized canonical correlation analysis // arXiv:1702.02519. 2017. 14 p.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика