Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2020-20-4-525-531
УДК 004.855.5
МЕТОД АВТОМАТИЧЕСКОГО ВИДЕОАНАЛИЗА ДВИЖЕНИЙ РУК И РАСПОЗНАВАНИЯ ЖЕСТОВ В ЧЕЛОВЕКО-МАШИННЫХ ИНТЕРФЕЙСАХ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Рюмин Д. Метод автоматического видеоанализа движений рук и распознавания жестов в человеко-машинных интерфейсах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20.№ 4. С. 525–531. doi: 10.17586/2226-1494-2020-20-4-525-531
Аннотация
Предмет исследования. Предложено одно из решений автоматического анализа и распознавания жестов рук человека. Распознавание элементов жестовых языков является актуальной задачей в современном информаци- онном мире. Проблема эффективности распознавания жестов не решена из-за наличия культурных различий жестовых языков мира, различий в условиях показа жестов. Проблема усложняется небольшим размером пальцев рук. Метод. Представленный метод основан на анализе последовательностей кадров видеопотока, получаемого с помощью оптической камеры. Для обработки полученных видеопоследовательностей предложено использовать карту глубины и комбинации современных классификаторов на основе архитектур глубоких нейронных сетей Single Shot MultiBox Detector с уменьшенной моделью сети ResNet-10, NASNetMobile и LSTM. Основные результаты. Эксперименты по автоматическому видеоанализу движений рук и распознаванию жестов в режиме реального времени показали большие возможности предложенного метода для задач человеко-машинного взаимодействия. Точность распознавания 48 одноручных жестов на базе данных TheRuSLan составила 79 %. Это является лучшим результатом по сравнению с другими подходами к решению данной проблемы. Практическая значимость. Результаты работы могут использоваться в автоматических системах распознавания жестовых языков, а также в тех ситуациях, когда необходимо бесконтактное взаимодействие различных групп пользователей, включая людей с ограниченными возможностями по слуху и зрению, с мобильными информационными роботами посредством автоматического распознавания жестовой информации.
Ключевые слова: видеоанализ движений рук, карта глубины, распознавание жестов, детектирование лиц, глубокие нейронные сети
Список литературы
Список литературы
1. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155. doi: 10.7868/S0869587318020056
2. Kagirov I., Karpov A., Kipyatkova I., Klyuzhev K., Kudryavcev A., Kudryavcev I., Ryumin D. Lower limbs exoskeleton control system based on intelligent human-machine interface // Studies in Computational Intelligence. 2020. V. 868. P. 457–466. doi: 10.1007/978-3-030-32258-8_54
3. Parker L.E., Rus D., Sukhatme G.S. Multiple mobile robot systems // Springer Handbook of Robotics. Springer, Cham, 2016. P. 1335–1384. doi: 10.1007/978-3-319-32552-1_53
4. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A.A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences - ISPRS Archives. 2019. V. 42. N 2/W12. P. 179–183. doi: 10.5194/isprs-archives-XLII-2-W12-179-2019
5. Mahmud S., Lin X., Kim J.H. Interface for Human Machine Interaction for assistant devices: A Review // Proc. 10th Annual Computing and Communication Workshop and Conference (CCWC). 2020. P. 768–773. doi: 10.1109/CCWC47524.2020.9031244
6. Ivanko D., Ryumin D., Kipyatkova I., Axyonov A., Karpov A. Lip-reading using pixel-based and geometry-based features for multimodal human-robot interfaces // Smart Innovation, Systems and Technologies. 2020. V. 154. P. 477–486. doi: 10.1007/978-981-13-9267-2_39
7. Janssen C.P., Donker S.F., Brumby D.P., Kun A.L. History and future of human-automation interaction // International Journal of Human Computer Studies. 2019. V. 131. P. 99–107. doi: 10.1016/j.ijhcs.2019.05.006
8. Prostejovsky A.M., Brosinsky C., Heussen K., Westermann D., Kreusel J., Marinelli M. The future role of human operators in highly automated electric power systems // Electric Power Systems Research. 2019. V. 175. P. 105883. doi: 10.1016/j.epsr.2019.105883
9. Chakraborty B.K., Sarma D., Bhuyan M.K., MacDorman K.F. Review of constraints on vision-based gesture recognition for human-computer interaction // IET Computer Vision. 2018. V. 12. N 1. P. 3–15. doi: 10.1049/iet-cvi.2017.0052
10. Dey D., Habibovic A., Pfleging B., Martens M., Terken J. Color and animation preferences for a light band eHMI in interactions between automated vehicles and pedestrians // Proc. of the 2020 CHI Conference on Human Factors in Computing Systems. 2020. P. 1–13. doi: 10.1145/3313831.3376325
11. Biondi F., Alvarez I., Jeong K.A. Human–Vehicle cooperation in automated driving: A multidisciplinary review and appraisal // International Journal of Human-Computer Interaction. 2019. V. 35. N 11. P. 932–946. doi: 10.1080/10447318.2018.1561792
12. Kennedy J., Lemaignan S., Montassier C., Lavalade P., Irfan B., Papadopoulos F., Senft E., Belpaeme T. Child speech recognition in human–robot interaction: evaluations and recommendations // Proc. 12th ACM/IEEE International Conference on Human-Robot Interaction. 2017. P. 82–90. doi: 10.1145/2909824.3020229
13. Kipyatkova I. LSTM-based language models for very large vocabulary continuous russian speech recognition system // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 219–226. doi: 10.1007/978-3-030-26061-3_23
14. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0 // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. V. 10278. P. 89–101. doi: 10.1007/978-3-319-58703-5_7
15. Mazhar O., Ramdani S., Navarro B., Passama R. A Framework for real-time physical Human-Robot Interaction using hand gestures // Proc. of the 2018 IEEE Workshop on Advanced Robotics and its Social Impacts (ARSO). 2018. P. 46–47. doi: 10.1109/ARSO.2018.8625753
16. Рюмин Д. Метод обнаружения и распознавания 3D одноручных жестов рук для человеко–машинного взаимодействия // Сборник тезисов докладов конгресса молодых ученых. 2019 [Электронное издание]. URL: https://kmu.itmo.ru/digests/article/1902, свободный. Яз. рус. (дата обращения: 13.05.2020).
17. Kagirov I., Ryumin D., Axyonov A. Method for multimodal recognition of one-handed sign language gestures through 3D convolution and LSTM neural networks // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2019. V. 11658. P. 191–200. doi: 10.1007/978-3-030-26061-3_20
18. Кагиров И.А., Рюмин Д.А., Аксёнов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1. С. 104–123. doi: 10.31857/S0373658X0008302-1
19. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C-Y., Berg A. SSD: single shot multibox detector // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. V. 9905. P. 21–37. doi: 10.1007/978-3-319-46448-0_2
20. He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition // Proc. 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. doi: 10.1109/CVPR.2016.90
21. King D.E. Max-margin object detection // arXiv. preprint arXiv 1502.00046. 2015.
22. Parkhi O.M., Vedaldi A., Zisserman A. Deep face recognition // Proc. 26th British Machine Vision Conference (BMVC). 2015. P. 41.1–41.12. doi: 10.5244/C.29.41
23. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. 2017. V. 60. N 6. P. 84–90. doi: 10.1145/3065386
24. Everingham M., Van Gool L., Williams C.K., Winn J., Zisserman A. The pascal visual object classes (VOC) challenge // International Journal of Computer Vision. 2010. V. 88. N 2. P. 303–338. doi: 10.1007/s11263-009-0275-4