Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2023-23-5-980-988
УДК 004.932.72'1, 004.852
Сегментация жестов слов на видео жестового языка
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Хань Д., Бессмертный И.А. Сегментация жестов слов на видео жестового языка // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, No 5. С. 980–988. doi: 10.17586/2226-1494-2023-23-5-980-988
Аннотация
Введение. Несмотря на широкое распространение средств автоматического распознавания речи и сопровождения видео субтитрами, язык жестов по-прежнему является ключевым средством коммуникации для людей с нарушениями слуха. Важной задачей в процессе автоматического распознавания жестового языка является сегментация видео на фрагменты, соответствующие отдельным словам. В отличие от известных методов сегментации слов жестового языка, предложен подход, не требующий использования сенсоров (акселерометров). Метод. Для сегментации видео на слова использована оценка динамики изображения, а граница между словами определена с помощью порогового значения. На практике в кадре, кроме диктора, могут присутствовать сторонние движущиеся объекты, которые создают шум. В связи с этим предложено оценить динамику по среднему изменению от кадра к кадру евклидова расстояния между координатными характеристиками кисти, предплечья, глаз и рта. Вычисление координатных характеристик рук и головы осуществлено с помощью библиотеки MediaPipe. Основные результаты. Разработанный алгоритм апробирован для жестового вьетнамского языка на открытом наборе из 4364 видео, собранном во Вьетнамском центре обучения языку жестов. Алгоритм продемонстрировал высокую точность, сопоставимую с ручной сегментацией видео оператором, и низкую ресурсоемкость, что позволяет его использовать при автоматическом распознавании жестов в реальном времени. Обсуждение. Выполненные эксперименты показали, что задача сегментации языка жестов в отличие от известных методов может быть эффективно решена без использования сенсоров. Как и другие методы сегментации жестов, предложенный алгоритм неудовлетворительно работает при высокой скорости жестового языка, когда имеет место наложение слов друг на друга. Данная проблема является предметом дальнейших исследований.
Ключевые слова: язык жестов, сегментация жестов слов, MediaPipe, LSTM, метод порогового значения, распознавание языка жестов
Список литературы
Список литературы
- Thoa N.T.K. Vietnamese sign language - unresolved isSUES // Proc. of the 4th Conference on Language Teaching and Learning" (LTAL). 2022. https://doi.org/10.21467/proceedings.132.23
- Li D., Rodriguez C., Yu X., Li H. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. P. 1459–1469. https://doi.org/10.1109/wacv45572.2020.9093512
- Min Y., Hao A., Chai X., Chen X. Visual alignment constraint for continuous sign language recognition // Proc. of the IEEE/CVF International Conference on Computer Vision (ICCV). 2021. P. 11522–11531. https://doi.org/10.1109/iccv48922.2021.01134
- Camgoz N.C., Hadfield S., Koller O., Bowden R. SubUNets: End-to-end hand shape and continuous sign language recognition // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2017. P. 3075–3084. https://doi.org/10.1109/iccv.2017.332
- Camgoz N.C., Kindiroglu A., Karabuklu S., Kelepir M., Ozsoy A.S., Akarun L. BosphorusSign: A Turkish sign language recognition corpus in health and finance domains // Proc. of the International Conference on Language Resources and Evaluation (LREC). 2016.
- Ko S.-K., Kim C.J., Jung H., Cho C. Neural sign language translation based on human keypoint estimation // Applied Sciences. 2019. V. 9. N 13. P. 2683. https://doi.org/10.3390/app9132683
- Lea C., Vidal R., Reiter A., Hager G.D. Temporal convolutional networks: A unified approach to action segmentation // Lecture Notes in Computer Science. 2016. V. 9915. P. 47–54. https://doi.org/10.1007/978-3-319-49409-8_7
- Kulkarni K., Evangelidis G., Cech J., Horaud R. Continuous action recognition based on sequence alignment // International Journal of Computer Vision. 2015. V. 112. N 1. P. 90–114. https://doi.org/10.1007/s11263-014-0758-9
- Luc P., Neverova N., Couprie C., Verbeek J., LeCun Y. Predicting deeper into the future of semantic segmentation // Proc. of the 2017 IEEE International Conference on Computer Vision (ICCV). 2017. P. 648–657. https://doi.org/10.1109/ICCV.2017.77
- Yi F., Wen H., Jiang T. ASFormer: Transformer for action segmentation // arXiv. 2021. arXiv:2110.08568. https://doi.org/10.48550/arXiv.2110.08568
- Brognaux S., Drugman T. HMM-based speech segmentation: improvements of fully automatic approaches // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. V. 24. N 1. P. 5–15. https://doi.org/10.1109/TASLP.2015.2456421
- Atmaja B.T., Akagi M. Speech emotion recognition based on speech segment using LSTM with attention model // IEEE International Conference on Signals and Systems (ICSigSys). 2019. P. 40–44. https://doi.org/10.1109/ICSIGSYS.2019.8811080
- Gujarathi P.V., Patil S.R. Gaussian filter-based speech segmentation algorithm for Gujarati language // Smart Innovation, Systems and Technologies. 2021. V. 224. P. 747–756. https://doi.org/10.1007/978-981-16-1502-3_74
- Chen M.-H., Li B., Bao Y., AlRegib G., Kira Z. Action segmentation with joint self-supervised temporal domain adaptation // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 9454–9463. https://doi.org/10.1109/cvpr42600.2020.00947
- Madrid G.K.R., Villanueva R.G.R., Caya M.V.C. Recognition of dynamic Filipino Sign language using MediaPipe and long short-term memory // Proc. of the 2022 13th International Conference on Computing Communication and Networking Technologies (ICCCNT). 2022. https://doi.org/10.1109/ICCCNT54827.2022.9984599
- Adhikary S., Talukdar A.K., Sarma K.K. A vision-based system for recognition of words used in Indian Sign Language using MediaPipe // Proc. of the 2021 Sixth International Conference on Image Information Processing (ICIIP). 2021. P. 390–394. https://doi.org/10.1109/ICIIP53038.2021.9702551
- Zhang S., Chen W., Chen C., Liu Y. Human deep squat detection method based on MediaPipe combined with Yolov5 network // Proc. of the 2022 41st Chinese Control Conference (CCC). 2022. P. 6404–6409. https://doi.org/10.23919/CCC55666.2022.9902631
- Quiñonez Y., Lizarraga C., Aguayo R. Machine learning solutions with MediaPipe // Proc. of the 2022 11th International Conference On Software Process Improvement (CIMPS). 2022. P. 212–215. https://doi.org/10.1109/CIMPS57786.2022.10035706
- Ma J., Ma L., Ruan W., Chen H., Feng J. A Wushu posture recognition system based on MediaPipe // Proc. of the 2022 2nd International Conference on Information Technology and Contemporary Sports (TCS). 2022. P. 10–13. https://doi.org/10.1109/TCS56119.2022.9918744
- Nguyen D.Q., Vu T., Nguyen D.Q., Dras M., Johnson M. 2017. From word segmentation to POS tagging for Vietnamese // Proc. of the 15th Australasian Language Technology Association Workshop. 2012. P. 108–113.