Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2023-23-4-767-775
УДК 004.855.5
Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания
Читать статью полностью

Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Аксёнов А.А., Рюмина Е.В., Рюмин Д.А., Иванько Д.В., Карпов А.А. Нейросетевой метод визуального распознавания голосовых команд водителя с использованием механизма внимания // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 4. С. 767–775. doi: 10.17586/2226-1494-2023-23-4-767-775
Аннотация
Введение. Визуальное распознавание речи или автоматическое чтение речи по губам все чаще применяется для преобразования речи в текст. Видеоданные доказывают свою необходимость в системах мультимодального распознавания речи, особенно когда использование акустических данных затруднено в виду сильных аудиошумов или недоступно. Основная цель исследования заключается в повышении эффективности распознавания команд водителя путем анализа визуальной информации для снижения тактильного взаимодействия с различными автомобильными системами (мультимедийными и навигационными, телефонными звонками и др.) во время вождения. Метод. Предложен метод автоматического чтения речи водителя по губам в процессе управления транспортным средством на основе глубокой нейронной сети архитектуры 3DResNet18. Выполнен анализ динамической информации о движении губ диктора с помощью 3D-сверточных слоев нейросети. Использование нейросетевой архитектуры с двунаправленной моделью Long Short-Term Memory и механизмом внимания позволяет добиться более высокой точности распознавания при незначительном снижении скорости работы. Основные результаты. Предложены и исследованы два варианта нейросетевых архитектур для визуального распознавания речи. При использовании первой нейросетевой архитектуры результат распознавания голосовых команд водителя составил 77,68 %, что ниже на 5,78 %, по сравнению со второй. Скорость работы системы определена показателем реального времени (Real-Time Factor, RTF), значение которого для первой нейросетевой архитектуры равен 0,076, а второй — 0,183, что выше более чем в два раза. Предложенный метод апробирован на данных дикторов многомодального корпуса RUSAVIC, записанных в автомобиле. Обсуждение. Результаты исследования могут найти применение в системах аудиовизуального распознавания речи. Подобные системы могут быть рекомендованы для применения в сильно зашумленных условиях, например, в процессе управления транспортным средством. Проведенный анализ позволил выбрать оптимальную нейросетевую модель визуального распознавания речи для последующего встраивания в ассистивную систему на базе мобильного устройства.
Ключевые слова: голосовые команды водителя, визуальное распознавание речи, автоматическое чтение речи по губам, машинное обучение, CNN, LSTM, механизм внимания
Благодарности. Исследование выполнено при поддержке РФФИ (проект № 19-29-09081-мк), ведущей научной школы Российской Федерации (грант № НШ-17.2022.1.6) и за счет средств государственного финансирования, тема FFZF-2022-0005.
Список литературы
Благодарности. Исследование выполнено при поддержке РФФИ (проект № 19-29-09081-мк), ведущей научной школы Российской Федерации (грант № НШ-17.2022.1.6) и за счет средств государственного финансирования, тема FFZF-2022-0005.
Список литературы
- Lin S.C., Hsu C.H., Talamonti W., Zhang Y., Oney S., Mars J., Tang L. Adasa: A conversational in-vehicle digital assistant for advanced driver assistance features // Proc. of the 31st Annual ACM Symposium on User Interface Software and Technology. 2018. P. 531–542. https://doi.org/10.1145/3242587.3242593
- Lee B., Hasegawa-Johnson M., Goudeseune C., Kamdar S., Borys S., Liu M., Huang T. AVICAR: Audio-visual speech corpus in a car environment // Proc. of the 8th International Conference on Spoken Language Processing. 2004. P. 2489–2492. https://doi.org/10.21437/Interspeech.2004-424
- Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Karpov A. Visual speech recognition in a driver assistance system // Proc. of the 30th European Signal Processing Conference (EUSIPCO). 2022. P. 1131–1135. https://doi.org/10.23919/EUSIPCO55093.2022.9909819
- Xu B., Wang J., Lu C., Guo Y. Watch to listen clearly: Visual speech enhancement driven multi-modality speech recognition // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1637–1646. https://doi.org/10.1109/wacv45572.2020.9093314
- Afouras T., Chung, J.S., Senior A., Vinyals O., Zisserman A. Deep audio-visual speech recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. V. 44. N 12. P. 8717–8727. https://doi.org/10.1109/TPAMI.2018.2889052
- Кухарев Г.А., Матвеев Ю.Н., Олейник А.Л. Алгоритмы взаимной трансформации изображений для систем обработки и поиска визуальной информации // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 62–74. https://doi.org/10.17586/2226-1494-2017-17-1-62-74
- Shi B., Hsu W.N., Mohamed A. Robust self-supervised audio-visual speech recognition // Proc. of the International Conference INTERSPEECH. 2022. P. 2118–2122. https://doi.org/10.21437/interspeech.2022-99
- Chand H.V., Karthikeyan J. CNN based driver drowsiness detection system using emotion analysis // Intelligent Automation & Soft Computing. 2022. V. 31. N 2. P. 717–728. https://doi.org/10.32604/iasc.2022.020008
- Ivanko D., Kashevnik A., Ryumin D., Kitenko A., Axyonov A., Lashkov I., Karpov A. MIDriveSafely: Multimodal interaction for drive safely // Proc. of the 2022 International Conference on Multimodal Interaction (ICMI). 2022. P. 733–735. https://doi.org/10.1145/3536221.3557037
- Biswas A., Sahu P.K., Chandra M. Multiple cameras audio visual speech recognition using active appearance model visual features in car environment // International Journal of Speech Technology. 2016. V. 19. N 1. P. 159–171. https://doi.org/10.1007/s10772-016-9332-x
- Nambi A.U., Bannur S., Mehta I., Kalra H., Virmani A., Padmanabhan V.N., Bhandari R., Raman B. HAMS: Driver and driving monitoring using a smartphone // Proc. of the 24th Annual International Conference on Mobile Computing and Networking. 2018. P. 840–842. https://doi.org/10.1145/3241539.3267723
- Kashevnik A., Lashkov I., Gurtov A. Methodology and mobile application for driver behavior analysis and accident prevention // IEEE Transactions on Intelligent Transportation Systems. 2020. V. 21. N 6. P. 2427–2436. https://doi.org/10.1109/TITS.2019.2918328
- Jang S.W., Ahn B. Implementation of detection system for drowsy driving prevention using image recognition and IoT // Sustainability. 2020. V. 12. N 7. P. 3037. https://doi.org/10.3390/su12073037
- Mishra R.K., Urolagin S., Jothi J.A.A., Gaur P. Deep hybrid learning for facial expression binary classifications and predictions // Image and Vision Computing. 2022. V. 128. P. 104573. https://doi.org/10.1016/j.imavis.2022.104573
- Sunitha G., Geetha K., Neelakandan S., Pundir A.K.S., Hemalatha S., Kumar V. Intelligent deep learning based ethnicity recognition and classification using facial images // Image and Vision Computing. 2022. V. 121. P. 104404. https://doi.org/10.1016/j.imavis.2022.104404
- Yuan Y., Tian C., Lu X. Auxiliary loss multimodal GRU model in audio-visual speech recognition // IEEE Access. 2018. V. 6. P. 5573–5583. https://doi.org/10.1109/ACCESS.2018.2796118
- Hou J.C., Wang S.S., Lai Y.H., Tsao Y., Chang H.W., Wang H.M. Audio-visual speech enhancement using multimodal deep convolutional neural networks // IEEE Transactions on Emerging Topics in Computational Intelligence. 2018. V. 2. N 2. P. 117–128. https://doi.org/10.1109/TETCI.2017.2784878
- Chan Z.M., Lau C.Y., Thang K.F. Visual speech recognition of lips images using convolutional neural network in VGG-M model // Journal of Information Hiding and Multimedia Signal Processing. 2020. V. 11. N 3. P. 116–125.
- Zhu X., Cheng D., Zhang Z., Lin S., Dai J. An empirical study of spatial attention mechanisms in deep networks // Proc. of the IEEE/CVF International Conference on Computer Vision. 2019. P. 6688–6697. https://doi.org/10.1109/iccv.2019.00679
- Bhaskar S., Thasleema T.M. LSTM model for visual speech recognition through facial expressions // Multimedia Tools and Applications. 2023. V. 82. N 4. P. 5455–5472. https://doi.org/10.1007/s11042-022-12796-1
- Hori T., Cho J., Watanabe S. End-to-end Speech recognition with word-based RNN language models // Proc. of the 2018 IEEE Spoken Language Technology Workshop (SLT). 2018. P. 389–396. https://doi.org/10.1109/SLT.2018.8639693
- Serdyuk D.D., Braga O.P.F., Siohan O. Transformer-based video front-ends for audio-visual speech recognition for single and multi-person video // Proc. of the INTERSPEECH. 2022. P. 2833–2837. https://doi.org/10.21437/interspeech.2022-10920
- Chen C.F.R., Fan Q., Panda R. CrossViT: Cross-attention multi-scale vision transformer for image classification // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 347–356. https://doi.org/10.1109/iccv48922.2021.00041
- Pan S.J., Yang Q. A survey on transfer learning // IEEE Transactions on Knowledge and Data Engineering. 2010. V. 22. N 10. P. 1345–1359. https://doi.org/10.1109/tkde.2009.191
- Романенко А.Н., Матвеев Ю.Н., Минкер В. Перенос знаний в задаче автоматического распознавания русской речи в телефонных переговорах // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 2. С. 236–242. https://doi.org/10.17586/2226-1494-2018-18-2-236-242
- Sui C., Bennamoun M., Togneri R. Listening with your eyes: towards a practical visual speech recognition system using deep boltzmann machines // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2015. P. 154–162. https://doi.org/10.1109/iccv.2015.26
- Ahmed N., Natarajan T., Rao K.R. Discrete cosine transform // IEEE Transactions on Computers. 1974. V. C-23. N 1. P. 90–93. https://doi.org/10.1109/T-C.1974.223784
- Xanthopoulos P., Pardalos P.M., Trafalis T.B. Linear discriminant analysis // Robust Data Mining. Springer New York, 2013. P. 27–33. https://doi.org/10.1007/978-1-4419-9878-1_4
- Томашенко Н.А., Хохлов Ю.Ю., Ларшер Э., Эстев Я., Матвеев Ю.Н. Использование в системах автоматического распознавания речи GMM-моделей для адаптации акустических моделей, построенных на основе искусственных нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 6. С. 1063–1072. https://doi.org/10.17586/2226-1494-2016-16-6-1063-1072
- Ma P., Petridis S., Pantic M. End-to-end audio-visual speech recognition with conformers // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2021. P. 7613–7617. https://doi.org/10.1109/ICASSP39728.2021.9414567
- Ryumin D., Ivanko D., Ryumina E. Audio-visual speech and gesture recognition by sensors of mobile devices // Sensors. 2023. V. 23. N 4. P. 2284. https://doi.org/10.3390/s23042284
- Huang J., Kingsbury B. Audio-visual deep learning for noise robust speech recognition // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing. 2013. P. 7596–7599. https://doi.org/10.1109/ICASSP.2013.6639140
- Ivanko D., Ryumin D., Kashevnik A., Axyonov A., Kitenko A., Lashkov I., Karpov A. DAVIS: Driver’s audio-visual speech recognition // Proc. of the International Conference INTERSPEECH. 2022. P. 1141–1142.
- Zhou P., Yang W., Chen W., Wang Y., Jia J. Modality attention for end-to-end audio-visual speech recognition // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 6565–6569. https://doi.org/10.1109/ICASSP.2019.8683733
- Ivanko D., Axyonov A., Ryumin D., Kashevnik A., Karpov A. RUSAVIC Corpus: Russian audio-visual speech in cars // Proc. of the 13th Language Resources and Evaluation Conference (LREC). 2022. P. 1555–1559.
- Kashevnik A., Lashkov I., Axyonov A., Ivanko D., Ryumin D., Kolchin A., Karpov A. Multimodal corpus design for audio-visual speech recognition in vehicle cabin // IEEE Access. 2021. V. 9. P. 34986–35003. https://doi.org/10.1109/ACCESS.2021.3062752
- Lugaresi C., Tang J., Nash H., McClanahan C., Uboweja E., Hays M., Zhang F., Chang C.-L., Yong M., Lee J., Chang W.-T., Hua W., Georg M., Grundmann M. MediaPipe: A framework for perceiving and processing reality // Proc. of the 3rd Workshop on Computer Vision for AR/VR at IEEE Computer Vision and Pattern Recognition (CVPR). 2019. V. 2019. P. 1–4.
- Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. MixUp: Beyond empirical risk minimization // Proc. of the ICLR Conference. 2018. P. 1–13.
- Feng D., Yang S., Shan S. An efficient software for building LIP reading models without pains // Proc. of the IEEE International Conference on Multimedia & Expo Workshops (ICMEW). 2021. P. 1–2. https://doi.org/10.1109/ICMEW53276.2021.9456014
- Kim M., Hong J., Park S.J., Ro Y.M. Multi-modality associative bridging through memory: speech sound recollected from face video // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 296–306. https://doi.org/10.1109/iccv48922.2021.00036
- Zhong Z., Lin Z.Q., Bidart R., Hu X., Daya I.B., Li Z., Zheng W., Li J., Wong A. Squeeze-and-attention networks for semantic segmentation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 13065–13074. https://doi.org/10.1109/cvpr42600.2020.01308
- Аксёнов А.А., Рюмин Д.А., Кашевник А.М., Иванько Д.В., Карпов А.А. Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством // Компьютерная оптика. 2022. Т. 46. № 6. С. 955–962. https://doi.org/10.18287/2412-6179-CO-1092