ViSL model: модель автоматической генерации предложений вьетнамского языка жестов

Данг Хань , Бессмертный Игорь Александрович

doi:10.17586/2226-1494-2024-24-5-779-787

2024 , ТОМ 24, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2024-24-5-779-787

УДК 004.932.72’1, 004.852

ViSL model: модель автоматической генерации предложений вьетнамского языка жестов

Данг Х., Бессмертный И.А.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Данг Х., Бессмертный И.А. ViSL model: модель автоматической генерации предложений вьетнамского языка жестов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 779–787 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-5-779-787

Аннотация

Введение. Основной проблемой при построении интеллектуальных систем является недостаточность данных для машинного обучения, что особенно актуально для распознавания языка жестов для глухих и слабослышащих людей. Одним из способов увеличения объема данных для обучения интеллектуальных систем является их синтез. В отличие от синтеза речи, создавать последовательность жестов на вьетнамском и некоторых других языках, в точности повторяющих текст, невозможно. Это связано с существенной ограниченностью словаря жестов и отличающимся порядком слов в предложениях. Целью работы является обогащение обучающего набора видеоданных для создания систем распознавания вьетнамского языка жестов (Vietnamese Sign Language, ViSL). Метод. Поскольку транслировать слова исходного текста в жесты невозможно, возникает задача перевода с обычного языка на жестовый. Для решения поставленной задачи в работе использован двухфазный процесс. На первой фазе выполняется предварительная обработка текста со стандартизацией текстового формата, сегментацией слов и предложений, а затем кодирование слов с помощью словаря языка жестов. На данном этапе не требуется удалять знаки препинания и стоп-слова, поскольку они связаны с точностью N-граммовой модели. На второй фазе вместо использования синтаксического анализа применяется статистический метод формирования последовательности жестов. При этом за основу берется марковская модель на графе переходов между словами, в которой вероятность следующего слова зависит только от двух предыдущих слов. Вероятности переходов вычисляются на существующем размеченном наборе ViSL. Метод графового поиска в ширину используется для составления списка всех предложений, сгенерированных на основе заданного грамматического правила и матрицы семантического взаимодействия между словами. Обратное значение логарифма произведения вероятности совместного появления последовательных словосочетаний из трех слов в предложении используется для оценки частоты встречаемости этого предложения в заданном наборе данных. Основные результаты. Основываясь на данных ViSL, состоящих из 3234 слов, рассчитаны матрицы вероятности, представляющие отношения между словами, на основе данных ViSL с 50 млн предложений, собранных из вьетнамских газет и журналов. Для различных грамматических правил выполнено сравнение количества сгенерированных предложений и оценка точности 50 наиболее часто встречающихся предложений. Средняя точность составила 88 %. Точность сгенерированных предложений оценена статистическими методами. Показано, что число сгенерированных предложений зависит от количества частей слова, которые помечены в соответствии с правилами грамматики. Семантическая точность сгенерированных предложений высока, если поисковые слова помечены правильными частями речи. Обсуждение. По сравнению с методами машинного обучения, предлагаемая модель дает хорошие результаты для языков без словоизменений и порядка слов, следующих определенным правилам, таких как вьетнамский язык, и не требует больших вычислительных ресурсов. Недостатком модели является зависимость точности от типа слова, предложения и сегментации слов. Взаимосвязь слов зависит от наблюдаемого набора данных. Будущее направление исследований — создание абзацев на языке жестов. Полученные данные могут быть использованы в моделях машинного обучения для задач обработки языка жестов.

Ключевые слова: вьетнамский язык жестов, модель языка жестов, автоматически генерация предложений, n-грамм, модель Маркова, метод графового поиска в ширину, обогащение данных, грамматические правила

Список литературы

Katti R.K., Sujatha C., Desai P., Shankar G. Character and word level gesture recognition of indian sign language // Proc. of the 2023 IEEE 8^th International Conference for Convergence in Technology (I2CT). 2023. P. 1–6. https://doi.org/10.1109/I2CT57861.2023.10126314
Naz N., Sajid H., Ali S., Hasan O., Ehsan M.K. Signgraph: An efficient and accurate pose-based graph convolution approach toward sign language recognition // IEEE Access. 2023. V. 11. P. 19135–19147. https://doi.org/10.1109/ACCESS.2023.3247761
Boháček M., Hrúz M. Sign pose-based transformer for word-level sign language recognition // Proc. of the 2022 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW). 2022. P. 182–191. https://doi.org/10.1109/WACVW54805.2022.00024
Jiang Y., Li F., Li Z., Liu Z., Wang Z. Enhancing continuous sign language recognition with Self-Attention and MediaPipe Holistic // Proc. of the 2023 8^th International Conference on Instrumentation, Control, and Automation (ICA). 2023. P. 97–102. https://doi.org/10.1109/ICA58538.2023.10273118
Nayan N., Ghosh D., Pradhan P.M. An unsupervised learning approach to handle movement epenthesis in continuous sign language recognition // Proc. of the 2022 17^th International Conference on Control, Automation, Robotics and Vision (ICARCV). 2022. P. 862–867. https://doi.org/10.1109/ICARCV57592.2022.10004317
Tran K.B., Nguyen U.D., Huynh Q.T. Continuous sign language recognition using MediaPipe // Proc. of the 2023 International Conference on Advanced Technologies for Communications (ATC). 2023. P. 493–498. https://doi.org/10.1109/ATC58710.2023.10318855
Quach L.-D., Nguyen C.-N. Conversion of the Vietnammese grammar into sign language structure using the example-based machine translation algorithm // Proc. of the 2018 International Conference on Advanced Technologies for Communications (ATC). 2018. P. 27–31. https://doi.org/10.1109/ATC.2018.8587584
Kagirov I., Ryumin D., Ivanko D., Axyonov A., Karpov A. Russian sign language: History, grammar and sociolinguistic situation in brief // Proc. of the Language Technologies for All (LT4All). 2019. P. 71–74.
Singh C., Bansal R.K., Bansal S. Machine translation techniques using AI: A review // Proc. of the 2023 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI). 2023. P. 1–5. https://doi.org/10.1109/CVMI59935.2023.10464455
Tan M., Chen D., Li Z., Wang P. Spelling error correction with BERT based on character-phonetic // Proc. of the 2020 IEEE 6^th International Conference on Computer and Communications (ICCC). 2020. P. 1146–1150. https://doi.org/10.1109/ICCC51575.2020.9345276
Huang C., Feng Y., Zhang Y., Zhang W. Knowledge Base System of Electrical equipment management and potential risk control based on natural language processing technology // Proc. of the 2023 Asia-Europe Conference on Electronics, Data Processing and Informatics (ACEDPI). 2023. P. 439–445. https://doi.org/10.1109/ACEDPI58926.2023.00090
Liu S., Tang R., Chai J. A news automatic tagging method based on statistical language model // Proc. of the 2017 10^th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). 2017. P. 1–5. https://doi.org/10.1109/CISP-BMEI.2017.8302092
Xiao J., Zhou Z. Research Progress of RNN Language Model // Proc. of the 2020 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA). 2020. P. 1285–1288. https://doi.org/10.1109/ICAICA50127.2020.9182390
Ganai F., Khursheed F. Predicting next Word using RNN and LSTM cells: Stastical Language Modeling // Proc. of the 2019 Fifth International Conference on Image Information Processing (ICIIP). 2019. P. 469–474. https://doi.org/10.1109/ICIIP47207.2019.8985885
Acheampong F.A., Nunoo-Mensah H., Chen W. Recognizing emotions from texts using an ensemble of transformer-based language models // Proc. of the 2021 18^th International Computer Conference on Wavelet Active Media Technology and Information Processing (ICCWAMTIP). 2021. P. 161–164. https://doi.org/10.1109/ICCWAMTIP53232.2021.9674102
Lee H., Kim J.-H., Hwang E.J., Kim J., Park J.C. Leveraging large language models with vocabulary sharing for sign language translation // Proc. of the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW). 2023. P. 1–5. https://doi.org/10.1109/ICASSPW59220.2023.10193533
Garg H., Gupta I., Kumar K., Kaur B., Pundir D. Artificial intelligence based dynamic approach to visualize the graphs // Proc. of the 2023 International Conference on Computational Intelligence, Communication Technology and Networking (CICTN). 2023. P. 663–667. https://doi.org/10.1109/CICTN57981.2023.10140873

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License