doi: 10.17586/2226-1494-2023-23-5-980-988


УДК 004.932.72'1, 004.852

Сегментация жестов слов на видео жестового языка

Данг Х., Бессмертный И.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Хань Д., Бессмертный И.А. Сегментация жестов слов на видео жестового языка // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, No 5. С. 980–988. doi: 10.17586/2226-1494-2023-23-5-980-988


Аннотация
Введение. Несмотря на широкое распространение средств автоматического распознавания речи и сопровождения видео субтитрами, язык жестов по-прежнему является ключевым средством коммуникации для людей с нарушениями слуха. Важной задачей в процессе автоматического распознавания жестового языка является сегментация видео на фрагменты, соответствующие отдельным словам. В отличие от известных методов сегментации слов жестового языка, предложен подход, не требующий использования сенсоров (акселерометров). Метод. Для сегментации видео на слова использована оценка динамики изображения, а граница между словами определена с помощью порогового значения. На практике в кадре, кроме диктора, могут присутствовать сторонние движущиеся объекты, которые создают шум. В связи с этим предложено оценить динамику по среднему изменению от кадра к кадру евклидова расстояния между координатными характеристиками кисти, предплечья, глаз и рта. Вычисление координатных характеристик рук и головы осуществлено с помощью библиотеки MediaPipe. Основные результаты. Разработанный алгоритм апробирован для жестового вьетнамского языка на открытом наборе из 4364 видео, собранном во Вьетнамском центре обучения языку жестов. Алгоритм продемонстрировал высокую точность, сопоставимую с ручной сегментацией видео оператором, и низкую ресурсоемкость, что позволяет его использовать при автоматическом распознавании жестов в реальном времени. Обсуждение. Выполненные эксперименты показали, что задача сегментации языка жестов в отличие от известных методов может быть эффективно решена без использования сенсоров. Как и другие методы сегментации жестов, предложенный алгоритм неудовлетворительно работает при высокой скорости жестового языка, когда имеет место наложение слов друг на друга. Данная проблема является предметом дальнейших исследований.

Ключевые слова: язык жестов, сегментация жестов слов, MediaPipe, LSTM, метод порогового значения, распознавание языка жестов

Список литературы
  1. Thoa N.T.K. Vietnamese sign language - unresolved isSUES // Proc. of the 4th Conference on Language Teaching and Learning" (LTAL). 2022. https://doi.org/10.21467/proceedings.132.23
  2. Li D., Rodriguez C., Yu X., Li H. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1459–1469. https://doi.org/10.1109/wacv45572.2020.9093512
  3. Min Y., Hao A., Chai X., Chen X. Visual alignment constraint for continuous sign language recognition // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 11522–11531. https://doi.org/10.1109/iccv48922.2021.01134
  4. Camgoz N.C., Hadfield S., Koller O., Bowden R. SubUNets: End-to-end hand shape and continuous sign language recognition // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2017. P. 3075–3084. https://doi.org/10.1109/iccv.2017.332
  5. Camgoz N.C., Kindiroglu A., Karabuklu S., Kelepir M., Ozsoy A.S., Akarun L. BosphorusSign: A Turkish sign language recognition corpus in health and finance domains // Proc. of the International Conference on Language Resources and Evaluation (LREC). 2016.
  6. Ko S.-K., Kim C.J., Jung H., Cho C. Neural sign language translation based on human keypoint estimation // Applied Sciences. 2019. V. 9. N 13. P. 2683. https://doi.org/10.3390/app9132683
  7. Lea C., Vidal R., Reiter A., Hager G.D. Temporal convolutional networks: A unified approach to action segmentation // Lecture Notes in Computer Science. 2016. V. 9915. P. 47–54. https://doi.org/10.1007/978-3-319-49409-8_7
  8. Kulkarni K., Evangelidis G., Cech J., Horaud R. Continuous action recognition based on sequence alignment // International Journal of Computer Vision. 2015. V. 112. N 1. P. 90–114. https://doi.org/10.1007/s11263-014-0758-9
  9. Luc P., Neverova N., Couprie C., Verbeek J., LeCun Y. Predicting deeper into the future of semantic segmentation // Proc. of the 2017 IEEE International Conference on Computer Vision (ICCV). 2017. P. 648–657. https://doi.org/10.1109/ICCV.2017.77
  10. Yi F., Wen H., Jiang T. ASFormer: Transformer for action segmentation // arXiv. 2021. arXiv:2110.08568. https://doi.org/10.48550/arXiv.2110.08568
  11. Brognaux S., Drugman T. HMM-based speech segmentation: improvements of fully automatic approaches // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. V. 24. N 1. P. 5–15. https://doi.org/10.1109/TASLP.2015.2456421
  12. Atmaja B.T., Akagi M. Speech emotion recognition based on speech segment using LSTM with attention model // IEEE International Conference on Signals and Systems (ICSigSys). 2019. P. 40–44. https://doi.org/10.1109/ICSIGSYS.2019.8811080
  13. Gujarathi P.V., Patil S.R. Gaussian filter-based speech segmentation algorithm for Gujarati language // Smart Innovation, Systems and Technologies. 2021. V. 224. P. 747–756. https://doi.org/10.1007/978-981-16-1502-3_74
  14. Chen M.-H., Li B., Bao Y., AlRegib G., Kira Z. Action segmentation with joint self-supervised temporal domain adaptation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 9454–9463. https://doi.org/10.1109/cvpr42600.2020.00947
  15. Madrid G.K.R., Villanueva R.G.R., Caya M.V.C. Recognition of dynamic Filipino Sign language using MediaPipe and long short-term memory // Proc. of the 2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2022. https://doi.org/10.1109/ICCCNT54827.2022.9984599
  16. Adhikary S., Talukdar A.K., Sarma K.K. A vision-based system for recognition of words used in Indian Sign Language using MediaPipe // Proc. of the 2021 Sixth International Conference on Image Information Processing (ICIIP). 2021. P. 390–394. https://doi.org/10.1109/ICIIP53038.2021.9702551
  17. Zhang S., Chen W., Chen C., Liu Y. Human deep squat detection method based on MediaPipe combined with Yolov5 network // Proc. of the 2022 41st Chinese Control Conference (CCC). 2022. P. 6404–6409. https://doi.org/10.23919/CCC55666.2022.9902631
  18. Quiñonez Y., Lizarraga C., Aguayo R. Machine learning solutions with MediaPipe // Proc. of the 2022 11th International Conference On Software Process Improvement (CIMPS). 2022. P. 212–215. https://doi.org/10.1109/CIMPS57786.2022.10035706
  19. Ma J., Ma L., Ruan W., Chen H., Feng J. A Wushu posture recognition system based on MediaPipe // Proc. of the 2022 2nd International Conference on Information Technology and Contemporary Sports (TCS). 2022. P. 10–13. https://doi.org/10.1109/TCS56119.2022.9918744
  20. Nguyen D.Q., Vu T., Nguyen D.Q., Dras M., Johnson M. 2017. From word segmentation to POS tagging for Vietnamese // Proc. of the 15th Australasian Language Technology Association Workshop. 2012. P. 108–113.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика