<div>
	Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия</div>

Аксёнов Александр Александрович, Кагиров Ильдар Амирович, Рюмин Дмитрий Александрович

doi:10.17586/2226-1494-2022-22-3-585-593

2022 , ТОМ 22, НОМЕР 3 ( май-июнь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2022-22-3-585-593

УДК 004.855.5

Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия

Аксёнов А.А., Кагиров И.А., Рюмин Д.А.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Аксёнов А.А., Кагиров И.А., Рюмин Д.А. Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 3. С. 585–593. doi: 10.17586/2226-1494-2022-22-3-585-593

Аннотация

Предмет исследования. Исследована возможность повышения надежности автоматической системы распознавания как отдельных жестов, так и жестового языка, за счет использования наиболее информативных пространственно-временных визуальных признаков. Метод. Представленный метод автоматического распознавания жестовой информации основан на интегральной нейросетевой модели, которая анализирует пространственно-временные визуальные признаки: 2D и 3D расстояния от лица до руки; площадь пересечения лица и руки; конфигурацию руки; гендерную и возрастную информацию о дикторе. Для извлечения информации о конфигурации руки разработана нейросетевая модель на основе архитектуры 3DResNet-18 для получения гендерной и возрастной информации. В метод встроены нейросетевые модели из программной платформы Deepface. Основные результаты. Предложенный метод апробирован на данных многомодального корпуса элементов жестового языка TheRuSLan, результаты которого достигают точности распознавания жестов 91,14 %. Практическая значимость. Результаты исследования позволяют повысить точность и робастность не только машинного сурдоперевода, но и естественность человеко-машинного взаимодействия в целом. Полученные результаты могут найти применение в сферах социального обслуживания медицины и образования, в робототехнике и в центрах обслуживания населения.

Ключевые слова: язык тела, жестикуляция, машинный сурдоперевод, естественность коммуникации

Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 21-71-00141, https://rscf.ru/project/21-71-00141/

Список литературы

1. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019. V. 42. N 2/W12. P. 179–183. https://doi.org/10.5194/isprs-archives-XLII-2-W12-179-2019

2. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155. https://doi.org/10.7868/S0869587318020056

3. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0 // Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. V. 10278. P. 89–101. https://doi.org/10.1007/978-3-319-58703-5_7

4. Рюмин Д. Метод автоматического видеоанализа движений рук и распознавания жестов в человеко-машинных интерфейсах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 4. С. 525–531. https://doi.org/10.17586/2226-1494-2020-20-4-525-531

5. Томская М.В., Маслова Л.Н. Гендерные исследования в отечественной лингвистике // Русский язык в современном обществе: функциональные и статусные характеристики. М., 2005. С. 102–130.

6. Carli L., LaFleur S., Loeber C. Nonverbal behavior, gender, and influence // Journal of Personality and Social Psychology. 1995. V. 68. N 6. P. 1030–1041. https://doi.org/10.1037/0022-3514.68.6.1030

7. Iriskhanova O., Cienki A. The semiotics of gestures in cognitive linguistics: Contribution and challenges // Вопросы конгинивной лингвистики. 2018. Т. 4. С. 25–36. https://doi.org/10.20916/1812-3228-2018-4-25-36

8. Masson-Carro I., Goudbeek M., Krahmer E. Coming of age in gesture: A comparative study of gesturing and pantomiming in older children and adults // Proc. of the 4th Gesture and Speech in Interaction Conference (GESPIN). 2015. P. 1–7.

9. Reviewed Work: Sign language structure: An outline of the visual communication systems of the American deaf by William C. Stokoe, Jr. // Language. 1961. V. 37. N 2. P. 269–271. https://doi.org/10.2307/410856

10. Димскис Л.С. Изучаем жестовый язык. M.: Издательский центр «Академия», 2002. 128 c.

11. Sonkusare J., Chopade N., Sor R., Tade S. A review on hand gesture recognition system // Proc. of the 1st International Conference on Computing, Communication, Control and Automation. 2015. P. 790–794. https://doi.org/10.1109/ICCUBEA.2015.158

12. De Smedt Q., Wannous H., Vandeborre J. Heterogeneous hand gesture recognition using 3D dynamic skeletal data // Computer Vision and Image Understanding. 2019. V. 181. P. 60–72. https://doi.org/10.1016/j.cviu.2019.01.008

13. Grif M., Prikhodko A., Bakaev M. Recognition of signs and movement epentheses in Russian Sign Language // Communications in Computer and Information Science. 2022. V. 1503. P. 67–82. https://doi.org/10.1007/978-3-030-93715-7_5

14. Гришина Е.А. Кольцо и щепоть: семантика соединенных пальцев в русской жестикуляции // Компьютерная лингвистика и интеллектуальные технологии. 2014. № 13. С. 182–202.

15. Zhang C., Yang X., Tian Y. Histogram of 3D Facets: A characteristic descriptor for hand gesture recognition // Proc. of the 10th International Conference Automatic Face and Gesture Recognition (FG). 2013. P. 6553754. https://doi.org/10.1109/FG.2013.6553754

16. Рюмин Д.А., Кагиров И.А. Подходы к автоматическому распознаванию жестовой информации: аппаратное обеспечение и методы // Пилотируемые полеты в космос. 2021. № 3(40). С. 82–99. https://doi.org/10.34131/MSF.21.3.82-99

17. Camgoz C.N., Hadfield S., Koller O., Bowden R. SubUNets: End-to-end hand shape and continuous sign language recognition // Proc. of the 16th International Conference on Computer Vision (ICCV). 2017. P. 3075–3084. https://doi.org/10.1109/ICCV.2017.332

18. Гриф М.Г., Королькова О.О., Приходько А.Л. Распознавание жестовой речи с учетом комбинаторных изменений жестов // Информатика: проблемы, методы, технологии: Материалы XXI Международной научно-технической конференции. 2021. С. 1387–1393.

19. Ryumin D., Kagirov I., Axyonov A., Pavlyuk N., Saveliev A., Kipyatkova I., Zelezny M., Mporas I., Karpov A. A multimodal user interface for an assistive robotic shopping cart // Electronics. 2020. V. 9. N 12. P. 1–25. https://doi.org/10.3390/electronics9122093

20. Axyonov А., Ryumin D., Kagirov I. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2021. V. 44. N 2/W1. P. 7–13. https://doi.org/10.5194/isprs-archives-XLIV-2-W1-2021-7-2021

21. Wu J., Zhang Y., Zhao X. A prototype-based generalized zero-shot learning framework for hand gesture recognition // Proc. of the 25th International Conference on Pattern Recognition (ICPR). 2021. P. 3435–3442. https://doi.org/10.1109/ICPR48806.2021.9412548

22. Voskou A., Panousis K.P., Kosmopoulos D., Metaxas D.N., Chatzis S. Stochastic transformer networks with linear competing units: Application to end-to-end SL translation // Proc. of the 18th International Conference on Computer Vision (ICPR). 2021. P. 11926–11935. https://doi.org/10.1109/ICCV48922.2021.01173

23. Jiang S., Sun B., Wang L., Bai Y., Li K., Fu Y. Skeleton aware multi-modal sign language recognition // Proc. of the Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 3408–3418. https://doi.org/10.1109/CVPRW53098.2021.00380

24. Рюмин Д. Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия: диссертация на соискание ученой степени кандидата технических наук / Университет ИТМО. 2020. 352 с. [Электронный ресурс]. URL: http://fppo.ifmo.ru/dissertation/?number=246869, свободный. Яз. рус. (дата обращения: 26.03.2022).

25. Winata G.I., Kampman O.P., Fung P. Attention-based LSTM for psychological stress detection from spoken language using distant supervision // Proc. of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. P. 6204–6208. https://doi.org/10.1109/ICASSP.2018.8461990

26. Serengil S.I., Ozpinar A. LightFace: A Hybrid deep face recognition framework // Proc. of the Innovations in Intelligent Systems and Applications Conference (ASYU). 2020. P. 9259802. https://doi.org/10.1109/ASYU50717.2020.9259802

27. Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. MixUp: Beyond empirical risk minimization // Proc. of the 6th International Conference on Learning Representations (ICLR). 2018.

28. Dresvyanskiy D., Ryumina E., Kaya H., Markitantov M., Karpov A., Minker W. End-to-end modeling and transfer learning for audiovisual emotion recognition in-the-wild // Multimodal Technologies and Interaction. 2022. V. 6. N 2. P. 11. https://doi.org/10.3390/mti6020011

29. Zhong Z., Lin Z.Q., Bidart R., Hu X., Daya I.B., Li Z., Zheng W., Li J., Wong A. Squeeze-and-attention networks for semantic segmentation // Proc. of the Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 13062–13071. https://doi.org/10.1109/cvpr42600.2020.01308

30. Kagirov I., Ivanko D., Ryumin D., Axyonov A., Karpov A. TheRuSLan: Database of Russian Sign Language // Proc. of the 12th Conference on Language Resources and Evaluation (LREC). 2020. P. 6079–6085.

31. Кагиров И.А., Рюмин Д.А., Аксёнов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1. С. 104–123. https://doi.org/10.31857/S0373658X0008302-1

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License