Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2022-22-3-585-593
УДК 004.855.5
Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Аксёнов А.А., Кагиров И.А., Рюмин Д.А. Метод многомодального машинного сурдоперевода для естественного человеко-машинного взаимодействия // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 3. С. 585–593. doi: 10.17586/2226-1494-2022-22-3-585-593
Аннотация
Предмет исследования. Исследована возможность повышения надежности автоматической системы распознавания как отдельных жестов, так и жестового языка, за счет использования наиболее информативных пространственно-временных визуальных признаков. Метод. Представленный метод автоматического распознавания жестовой информации основан на интегральной нейросетевой модели, которая анализирует пространственно-временные визуальные признаки: 2D и 3D расстояния от лица до руки; площадь пересечения лица и руки; конфигурацию руки; гендерную и возрастную информацию о дикторе. Для извлечения информации о конфигурации руки разработана нейросетевая модель на основе архитектуры 3DResNet-18 для получения гендерной и возрастной информации. В метод встроены нейросетевые модели из программной платформы Deepface. Основные результаты. Предложенный метод апробирован на данных многомодального корпуса элементов жестового языка TheRuSLan, результаты которого достигают точности распознавания жестов 91,14 %. Практическая значимость. Результаты исследования позволяют повысить точность и робастность не только машинного сурдоперевода, но и естественность человеко-машинного взаимодействия в целом. Полученные результаты могут найти применение в сферах социального обслуживания медицины и образования, в робототехнике и в центрах обслуживания населения.
Ключевые слова: язык тела, жестикуляция, машинный сурдоперевод, естественность коммуникации
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 21-71-00141, https://rscf.ru/project/21-71-00141/
Список литературы
Благодарности. Исследование выполнено за счет гранта Российского научного фонда № 21-71-00141, https://rscf.ru/project/21-71-00141/
Список литературы
1. Ryumin D., Kagirov I., Ivanko D., Axyonov A., Karpov A. Automatic detection and recognition of 3D manual gestures for human-machine interaction // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019. V. 42. N 2/W12. P. 179–183. https://doi.org/10.5194/isprs-archives-XLII-2-W12-179-2019
2. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155. https://doi.org/10.7868/S0869587318020056
3. Ryumin D., Karpov A.A. Towards automatic recognition of sign language gestures using kinect 2.0 // Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2017. V. 10278. P. 89–101. https://doi.org/10.1007/978-3-319-58703-5_7
4. Рюмин Д. Метод автоматического видеоанализа движений рук и распознавания жестов в человеко-машинных интерфейсах // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 4. С. 525–531. https://doi.org/10.17586/2226-1494-2020-20-4-525-531
5. Томская М.В., Маслова Л.Н. Гендерные исследования в отечественной лингвистике // Русский язык в современном обществе: функциональные и статусные характеристики. М., 2005. С. 102–130.
6. Carli L., LaFleur S., Loeber C. Nonverbal behavior, gender, and influence // Journal of Personality and Social Psychology. 1995. V. 68. N 6. P. 1030–1041. https://doi.org/10.1037/0022-3514.68.6.1030
7. Iriskhanova O., Cienki A. The semiotics of gestures in cognitive linguistics: Contribution and challenges // Вопросы конгинивной лингвистики. 2018. Т. 4. С. 25–36. https://doi.org/10.20916/1812-3228-2018-4-25-36
8. Masson-Carro I., Goudbeek M., Krahmer E. Coming of age in gesture: A comparative study of gesturing and pantomiming in older children and adults // Proc. of the 4th Gesture and Speech in Interaction Conference (GESPIN). 2015. P. 1–7.
9. Reviewed Work: Sign language structure: An outline of the visual communication systems of the American deaf by William C. Stokoe, Jr. // Language. 1961. V. 37. N 2. P. 269–271. https://doi.org/10.2307/410856
10. Димскис Л.С. Изучаем жестовый язык. M.: Издательский центр «Академия», 2002. 128 c.
11. Sonkusare J., Chopade N., Sor R., Tade S. A review on hand gesture recognition system // Proc. of the 1st International Conference on Computing, Communication, Control and Automation. 2015. P. 790–794. https://doi.org/10.1109/ICCUBEA.2015.158
12. De Smedt Q., Wannous H., Vandeborre J. Heterogeneous hand gesture recognition using 3D dynamic skeletal data // Computer Vision and Image Understanding. 2019. V. 181. P. 60–72. https://doi.org/10.1016/j.cviu.2019.01.008
13. Grif M., Prikhodko A., Bakaev M. Recognition of signs and movement epentheses in Russian Sign Language // Communications in Computer and Information Science. 2022. V. 1503. P. 67–82. https://doi.org/10.1007/978-3-030-93715-7_5
14. Гришина Е.А. Кольцо и щепоть: семантика соединенных пальцев в русской жестикуляции // Компьютерная лингвистика и интеллектуальные технологии. 2014. № 13. С. 182–202.
15. Zhang C., Yang X., Tian Y. Histogram of 3D Facets: A characteristic descriptor for hand gesture recognition // Proc. of the 10th International Conference Automatic Face and Gesture Recognition (FG). 2013. P. 6553754. https://doi.org/10.1109/FG.2013.6553754
16. Рюмин Д.А., Кагиров И.А. Подходы к автоматическому распознаванию жестовой информации: аппаратное обеспечение и методы // Пилотируемые полеты в космос. 2021. № 3(40). С. 82–99. https://doi.org/10.34131/MSF.21.3.82-99
17. Camgoz C.N., Hadfield S., Koller O., Bowden R. SubUNets: End-to-end hand shape and continuous sign language recognition // Proc. of the 16th International Conference on Computer Vision (ICCV). 2017. P. 3075–3084. https://doi.org/10.1109/ICCV.2017.332
18. Гриф М.Г., Королькова О.О., Приходько А.Л. Распознавание жестовой речи с учетом комбинаторных изменений жестов // Информатика: проблемы, методы, технологии: Материалы XXI Международной научно-технической конференции. 2021. С. 1387–1393.
19. Ryumin D., Kagirov I., Axyonov A., Pavlyuk N., Saveliev A., Kipyatkova I., Zelezny M., Mporas I., Karpov A. A multimodal user interface for an assistive robotic shopping cart // Electronics. 2020. V. 9. N 12. P. 1–25. https://doi.org/10.3390/electronics9122093
20. Axyonov А., Ryumin D., Kagirov I. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language // International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2021. V. 44. N 2/W1. P. 7–13. https://doi.org/10.5194/isprs-archives-XLIV-2-W1-2021-7-2021
21. Wu J., Zhang Y., Zhao X. A prototype-based generalized zero-shot learning framework for hand gesture recognition // Proc. of the 25th International Conference on Pattern Recognition (ICPR). 2021. P. 3435–3442. https://doi.org/10.1109/ICPR48806.2021.9412548
22. Voskou A., Panousis K.P., Kosmopoulos D., Metaxas D.N., Chatzis S. Stochastic transformer networks with linear competing units: Application to end-to-end SL translation // Proc. of the 18th International Conference on Computer Vision (ICPR). 2021. P. 11926–11935. https://doi.org/10.1109/ICCV48922.2021.01173
23. Jiang S., Sun B., Wang L., Bai Y., Li K., Fu Y. Skeleton aware multi-modal sign language recognition // Proc. of the Conference on Computer Vision and Pattern Recognition (CVPR). 2021. P. 3408–3418. https://doi.org/10.1109/CVPRW53098.2021.00380
24. Рюмин Д. Модели и методы автоматического распознавания элементов русского жестового языка для человеко-машинного взаимодействия: диссертация на соискание ученой степени кандидата технических наук / Университет ИТМО. 2020. 352 с. [Электронный ресурс]. URL: http://fppo.ifmo.ru/dissertation/?number=246869, свободный. Яз. рус. (дата обращения: 26.03.2022).
25. Winata G.I., Kampman O.P., Fung P. Attention-based LSTM for psychological stress detection from spoken language using distant supervision // Proc. of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. P. 6204–6208. https://doi.org/10.1109/ICASSP.2018.8461990
26. Serengil S.I., Ozpinar A. LightFace: A Hybrid deep face recognition framework // Proc. of the Innovations in Intelligent Systems and Applications Conference (ASYU). 2020. P. 9259802. https://doi.org/10.1109/ASYU50717.2020.9259802
27. Zhang H., Cisse M., Dauphin Y.N., Lopez-Paz D. MixUp: Beyond empirical risk minimization // Proc. of the 6th International Conference on Learning Representations (ICLR). 2018.
28. Dresvyanskiy D., Ryumina E., Kaya H., Markitantov M., Karpov A., Minker W. End-to-end modeling and transfer learning for audiovisual emotion recognition in-the-wild // Multimodal Technologies and Interaction. 2022. V. 6. N 2. P. 11. https://doi.org/10.3390/mti6020011
29. Zhong Z., Lin Z.Q., Bidart R., Hu X., Daya I.B., Li Z., Zheng W., Li J., Wong A. Squeeze-and-attention networks for semantic segmentation // Proc. of the Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 13062–13071. https://doi.org/10.1109/cvpr42600.2020.01308
30. Kagirov I., Ivanko D., Ryumin D., Axyonov A., Karpov A. TheRuSLan: Database of Russian Sign Language // Proc. of the 12th Conference on Language Resources and Evaluation (LREC). 2020. P. 6079–6085.
31. Кагиров И.А., Рюмин Д.А., Аксёнов А.А., Карпов А.А. Мультимедийная база данных жестов русского жестового языка в трехмерном формате // Вопросы языкознания. 2020. № 1. С. 104–123. https://doi.org/10.31857/S0373658X0008302-1