НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2018-18-2-243-254
УДК 004.93
ОБРАБОТКА И АНАЛИЗ ЗВУКОВОЙ И ВИЗУАЛЬНОЙ СОСТАВЛЯЮЩИХ РЕЧИ НА ОСНОВЕ ПРОЕКЦИОННЫХ МЕТОДОВ
Читать статью полностью
Ссылка для цитирования: Олейник А.Л. Обработка и анализ звуковой и визуальной составляющих речи на основе проекционных методов // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 243–254. doi: 10.17586/2226-1494-2018-18-2-243-254
Аннотация
Предмет исследования. Рассмотрена задача взаимной реконструкции (преобразования) звуковой и визуальной составляющих (модальностей) речевого сигнала. Аудиозапись голоса представляет звуковую составляющую, а снятая параллельно с ней видеозапись лица человека образует визуальную составляющую. Так как эти модальности обладают различной физической природой, их совместный анализ и обработка сопровождаются рядом трудностей и проблем. Многие из них можно преодолеть с помощью методов взаимной реконструкции. Метод. Предложенный подход основан на анализе главных компонент (PrincipalComponentAnalysis, PCA), множественной линейной регрессии, регрессии частичных наименьших квадратов (PartialLeastSquares, PLS), а также на алгоритме кластеризации K-средних. Также подробно рассмотрены вопросы предобработки исходных данных. В качестве звуковых признаков использованы мел-частотные кепстральные коэффициенты (Mel-FrequencyCepstralCoefficients, MFCC), а в качестве визуальных – набор из 20 опорных точек, представляющих контур рта. Основные результаты. В рамках экспериментальных исследований выполнена реконструкция опорных точек контура рта из MFCC. Эксперименты проведены на аудиовизуальной англоязычной базе VidTIMIT. Представлены варианты реализации предложенного подхода на основе PCAи регрессии PLSс кластеризацией и без нее (четыре варианта). Количественная (объективная) и качественная (субъективная) оценки подтвердили работоспособность предложенного подхода; наилучшие результаты показала реализация на основе регрессии PLSс предварительной кластеризацией. Практическая значимость. На основе предложенного подхода могут быть разработаны бимодальные биометрические системы, управляемые голосом виртуальные двойники («аватары»), системы контроля доступа к мобильным устройствам и другие решения в области аудиовизуальных человеко-машинных интерфейсов. Показано, что при правильной организации вычислений использование методов PCAи PLSпозволяет значительно сократить вычислительные затраты. Отказ от кластеризации также позволяет повысить быстродействие за счет некоторого снижения качества реконструкции.
Благодарности. Исследования выполнены за счет стартового финансирования Университета ИТМО.
Список литературы
-
Иванько Д.В., Карпов А.А. Анализ перспектив применения высокоскоростных камер для распознавания динамической видеоинформации // Труды СПИИРАН. 2016. № 1. С. 98–113.doi: 10.15622/SP.44.7
-
McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. V. 264. N 5588. P. 746–748.
-
Atrey P.K., Hossain M.A., El Saddik A., Kankanhalli M.S. Multimodal fusion for multimedia analysis: a survey // Multimedia Systems. 2010. V. 16. N 6. P. 345–379. doi: 10.1007/s00530-010-0182-0
-
Nefian A.V., Liang L., Pi X. et al. A coupled HMM for audio-visual speech recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. 2002. V. 2. P. 2013–2016. doi: 10.1109/ICASSP.2002.5745027
-
Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // Автоматика и телемеханика. 2014. № 12. С. 125–138.
-
Pachoud S., Gong S., Cavallaro A. Space-time audio-visual speech recognition with multiple multi-class probabilistic support vector machines // Proc. Auditory-Visual Speech Processing AVSP. Norwich, UK, 2009. P. 155–160.
-
Hammami I., Mercies G., Hamouda A. The Kohonen map for credal fusion of heterogeneous data // Proc. IEEE International Geoscience and Remote Sensing Symposium (IGARSS). Milan, Italy, 2015. P. 2947–2950. doi: 10.1109/IGARSS.2015.7326433
-
Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9. N 8. P. 1735–1780. doi: 10.1162/neco.1997.9.8.1735
-
Jaeger H. The «echo state» approach to analysing and training recurrent neural networks - with an erratum note // GMD Technical Report 148, German National Research Center for Information Technology,2001. 13 p.
-
LeCun Y. et al. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. V. 86. N 11. P. 2278–2324. doi: 10.1109/5.726791
-
Hou J.-C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wan H.M. Audio-visual speech enhancement based on multimodal deep convolutional neural network // ArXiv Prepr. ArXiv170310893. 2017.
-
Noda K., Yamaguchi Y., Nakadai K., Okuno H.G., Ogata T. Audio-visual speech recognition using deep learning // Applied Intelligence. 2015. V. 42. N 4. P. 722–737. doi: 10.1007/s10489-014-0629-7
-
Ren J., Hu Y., Tai Y.W. et al. Look, listen and learn - a multimodal LSTM for speaker identification // Proc. 30th AAAI Conference on Artificial Intelligence. Phoenix, USA, 2016. P. 3581–3587.
-
Кухарев Г.А., Каменская Е.И., Матвеев Ю.Н., Щеголева Н.Л. Методы обработки и распознавания изображений лиц в задачах биометрии / под ред. М.В. Хитрова. СПб.: Политехника, 2013. 388 с.
-
Meng H., Huang D., Wang H., Yang H., Al-Shuraifi M., Wang Y. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // Proc. 3rd ACM International Workshop on Audio/Visual Emotion Challenge (AVEC 2013). Barselona, Spain, 2013. P. 21–29. doi: 10.1145/2512530.2512532
-
Liu M., Wang R., Huang Z., Shan S., Chen X. Partial least squares regression on grassmannian manifold for emotion recognition // Proc. 15th ACM on Int. Conf. on Multimodal Interaction. Sydney, Australia, 2013. P. 525–530. doi: 10.1145/2522848.2531738
-
Bakry A., Elgammal A. MKPLS: Manifold kernel partial least squares for lipreading and speaker identification // Proc. 26th IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2013). Portland, USA, 2013. P. 684–691. doi: 10.1109/CVPR.2013.94
-
Sargin M.E., Yemez Y., Erzin E., Tekalp A.M. Audiovisual synchronization and fusion using canonical correlation analysis // IEEE Transactions on Multimedia. 2007. V. 9. N 7. P. 1396–1403. doi: 10.1109/TMM.2007.906583
-
Sigg C., Fischer B., Ommer B., Roth V., Buhmann J. Nonnegative CCA for audiovisual source separation // Proc. 17th IEEE Int. Workshop on Machine Learning for Signal Processing. Thessaloniki, Greece, 2007. P. 253–258. doi: 10.1109/MLSP.2007.4414315
-
Lee J.-S., Ebrahimi T. Two-level bimodal association for audio-visual speech recognition // Lecture Notes in Computer Science. 2009. V. 5807. P. 133–144.doi: 10.1007/978-3-642-04697-1_13
-
De Bie T., Cristianini N., Rosipal R. Eigenproblems in pattern recognition / In: Handbook of Geometric Computing. Ed. E.B. Corrochano. Berlin, Springer, 2005. P. 129–167. doi: 10.1007/3-540-28247-5_5
-
Эсбенсен К. Анализ многомерных данных. Черноголовка: ИПХФ РАН, 2005. 160 с.
-
Prasad N.V., Umesh S. Improved cepstral mean and variance normalization using Bayesian framework // Proc. 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. 2013. P. 156–161. doi: 10.1109/ASRU.2013.6707722
-
OpenCVLibrary[Электронный ресурс]. URL: http://opencv.org(дата обращения: 20.01.2018).
-
Kazemi V., Sullivan J. One millisecond face alignment with an ensemble of regression trees // Proc. IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014. P. 1867–1874. doi: 10.1109/CVPR.2014.241
-
dlibC++ Library[Электронный ресурс]. URL: http://dlib.net(дата обращения: 20.01.2018).
-
Олейник А.Л. Применение метода частичных наименьших квадратов для обработки и моделирования аудиовизуальной речи // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 5.
С. 886–892. doi: 10.17586/2226-1494-2015-15-5-886-892 -
SoX - Sound eXchange. HomePage [Электронныйресурс]. URL: http://sox.sourceforge.net(дата обращения: 09.09.2017).
-
Wojcicki K. Mel Frequency Cepstral Coefficient Feature Extraction [Электронныйресурс]. Режим доступа: www.mathworks.com/matlabcentral/fileexchange/32849-htk-mfcc-matlabсвободный. Яз. англ. (дата обращения: 20.01.2018).
-
The VidTIMIT Audio-Video Database [Электронныйресурс]. URL: http://conradsanderson.id.au/vidtimit/ (дата обращения: 20.01.2018).
-
Sanderson C., Lovell B.C. Multi-region probabilistic histograms for robust and scalable identity inference // Lecture Notes in Computer Science. 2009. V. 5558. P. 199–208. doi: 10.1007/978-3-642-01793-3_21
-
Benton A., Khayrallah H., Gujral B., Reisinger D.A., Zhang S., Arora R. Deep generalized canonical correlation analysis // arXiv:1702.02519. 2017. 14 p.