<div>
	МЕТОД АВТОМАТИЧЕСКОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК И РАСПОЗНАВАНИЯ ЖЕСТОВ В ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСАХ</div>

Рюмин Дмитрий Александрович

doi:10.17586/2226-1494-2020-20-4-525-531

2020 , ТОМ 20, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2020-20-4-525-531

УДК 004.855.5

МЕТОД АВТОМАТИЧЕСКОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК И РАСПОЗНАВАНИЯ ЖЕСТОВ В ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСАХ

Рюмин Д.А.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Рюмин Д. Метод автоматического видеоанализа движений рук и распознавания жестов в человеко-машинных интерфейсах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20.№ 4. С. 525–531. doi: 10.17586/2226-1494-2020-20-4-525-531

Аннотация

Предмет исследования. Предложено одно из решений автоматического анализа и распознавания жестов рук человека. Распознавание элементов жестовых языков является актуальной задачей в современном информаци- онном мире. Проблема эффективности распознавания жестов не решена из-за наличия культурных различий жестовых языков мира, различий в условиях показа жестов. Проблема усложняется небольшим размером пальцев рук. Метод. Представленный метод основан на анализе последовательностей кадров видеопотока, получаемого с помощью оптической камеры. Для обработки полученных видеопоследовательностей предложено использовать карту глубины и комбинации современных классификаторов на основе архитектур глубоких нейронных сетей Single Shot MultiBox Detector с уменьшенной моделью сети ResNet-10, NASNetMobile и LSTM. Основные результаты. Эксперименты по автоматическому видеоанализу движений рук и распознаванию жестов в режиме реального времени показали большие возможности предложенного метода для задач человеко-машинного взаимодействия. Точность распознавания 48 одноручных жестов на базе данных TheRuSLan составила 79 %. Это является лучшим результатом по сравнению с другими подходами к решению данной проблемы. Практическая значимость. Результаты работы могут использоваться в автоматических системах распознавания жестовых языков, а также в тех ситуациях, когда необходимо бесконтактное взаимодействие различных групп пользователей, включая людей с ограниченными возможностями по слуху и зрению, с мобильными информационными роботами посредством автоматического распознавания жестовой информации.

Ключевые слова: видеоанализ движений рук, карта глубины, распознавание жестов, детектирование лиц, глубокие нейронные сети

Список литературы

1. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155. doi: 10.7868/S0869587318020056

2. Kagirov I., Karpov A., Kipyatkova I., Klyuzhev K., Kudryavcev A., Kudryavcev I., Ryumin D. Lower limbs exoskeleton control system based on intelligent human-machine interface // Studies in Computational Intelligence. 2020. V. 868. P. 457–466. doi: 10.1007/978-3-030-32258-8_54

3. Parker L.E., Rus D., Sukhatme G.S. Multiple mobile robot systems // Springer Handbook of Robotics. Springer, Cham, 2016. P. 1335–1384. doi: 10.1007/978-3-319-32552-1_53

4. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2019. V. 42. N 2/W12. P. 179–183. doi: 10.5194/isprs-archives-XLII-2-W12-179-2019

5. Mahmud S., Lin X., Kim J.H. Interface for Human Machine Interaction for assistant devices: A Review // Proc. 10th Annual Computing and Communication Workshop and Conference (CCWC). 2020. P. 768–773. doi: 10.1109/CCWC47524.2020.9031244

6. Ivanko D., Ryumin D., Kipyatkova I., Axyonov A., Karpov A. Lip-reading using pixel-based and geometry-based features for multimodal human-robot interfaces // Smart Innovation, Systems and Technologies. 2020. V. 154. P. 477–486. doi: 10.1007/978-981-13-9267-2_39

7. Janssen C.P., Donker S.F., Brumby D.P., Kun A.L. History and future of human-automation interaction // International Journal of Human Computer Studies. 2019. V. 131. P. 99–107. doi: 10.1016/j.ijhcs.2019.05.006

8. Prostejovsky A.M., Brosinsky C., Heussen K., Westermann D., Kreusel J., Marinelli M. The future role of human operators in highly automated electric power systems // Electric Power Systems Research. 2019. V. 175. P. 105883. doi: 10.1016/j.epsr.2019.105883

9. Chakraborty B.K., Sarma D., Bhuyan M.K., MacDorman K.F. Review of constraints on vision-based gesture recognition for human-computer interaction // IET Computer Vision. 2018. V. 12. N 1. P. 3–15. doi: 10.1049/iet-cvi.2017.0052

10. Dey D., Habibovic A., Pfleging B., Martens M., Terken J. Color and animation preferences for a light band eHMI in interactions between automated vehicles and pedestrians // Proc. of the 2020 CHI Conference on Human Factors in Computing Systems. 2020. P. 1–13. doi: 10.1145/3313831.3376325

11. Biondi F., Alvarez I., Jeong K.A. Human–Vehicle cooperation in automated driving: A multidisciplinary review and appraisal // International Journal of Human-Computer Interaction. 2019. V. 35. N 11. P. 932–946. doi: 10.1080/10447318.2018.1561792

12. Kennedy J., Lemaignan S., Montassier C., Lavalade P., Irfan B., Papadopoulos F., Senft E., Belpaeme T. Child speech recognition in human–robot interaction: evaluations and recommendations // Proc. 12th ACM/IEEE International Conference on Human-Robot Interaction. 2017. P. 82–90. doi: 10.1145/2909824.3020229

13. Kipyatkova I. LSTM-based language models for very large vocabulary continuous russian speech recognition system // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 219–226. doi: 10.1007/978-3-030-26061-3_23

14. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0 // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. V. 10278. P. 89–101. doi: 10.1007/978-3-319-58703-5_7

15. Mazhar O., Ramdani S., Navarro B., Passama R. A Framework for real-time physical Human-Robot Interaction using hand gestures // Proc. of the 2018 IEEE Workshop on Advanced Robotics and its Social Impacts (ARSO). 2018. P. 46–47. doi: 10.1109/ARSO.2018.8625753

16. Рюмин Д. Метод обнаружения и распознавания 3D одноручных жестов рук для человеко–машинного взаимодействия // Сборник тезисов докладов конгресса молодых ученых. 2019 [Электронное издание]. URL: https://kmu.itmo.ru/digests/article/1902, свободный. Яз. рус. (дата обращения: 13.05.2020).

17. Kagirov I., Ryumin D., Axyonov A. Method for multimodal recognition of one-handed sign language gestures through 3D convolution and LSTM neural networks // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 191–200. doi: 10.1007/978-3-030-26061-3_20

18. Кагиров И.А., Рюмин Д.А., Аксёнов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1. С. 104–123. doi: 10.31857/S0373658X0008302-1

19. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C-Y., Berg A. SSD: single shot multibox detector // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9905. P. 21–37. doi: 10.1007/978-3-319-46448-0_2

20. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. doi: 10.1109/CVPR.2016.90

21. King D.E. Max-margin object detection // arXiv. preprint arXiv 1502.00046. 2015.

22. Parkhi O.M., Vedaldi A., Zisserman A. Deep face recognition // Proc. 26th British Machine Vision Conference (BMVC). 2015. P. 41.1–41.12. doi: 10.5244/C.29.41

23. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. 2017. V. 60. N 6. P. 84–90. doi: 10.1145/3065386

24. Everingham M., Van Gool L., Williams C.K., Winn J., Zisserman A. The pascal visual object classes (VOC) challenge // International Journal of Computer Vision. 2010. V. 88. N 2. P. 303–338. doi: 10.1007/s11263-009-0275-4

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License