Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-5-779-787
УДК 004.932.72’1, 004.852
ViSL model: модель автоматической генерации предложений вьетнамского языка жестов
Читать статью полностью
Язык статьи - английский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Данг Х., Бессмертный И.А. ViSL model: модель автоматической генерации предложений вьетнамского языка жестов // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 779–787 (на англ. яз.). doi: 10.17586/2226-1494-2024-24-5-779-787
Аннотация
Введение. Основной проблемой при построении интеллектуальных систем является недостаточность данных для машинного обучения, что особенно актуально для распознавания языка жестов для глухих и слабослышащих людей. Одним из способов увеличения объема данных для обучения интеллектуальных систем является их синтез. В отличие от синтеза речи, создавать последовательность жестов на вьетнамском и некоторых других языках, в точности повторяющих текст, невозможно. Это связано с существенной ограниченностью словаря жестов и отличающимся порядком слов в предложениях. Целью работы является обогащение обучающего набора видеоданных для создания систем распознавания вьетнамского языка жестов (Vietnamese Sign Language, ViSL). Метод. Поскольку транслировать слова исходного текста в жесты невозможно, возникает задача перевода с обычного языка на жестовый. Для решения поставленной задачи в работе использован двухфазный процесс. На первой фазе выполняется предварительная обработка текста со стандартизацией текстового формата, сегментацией слов и предложений, а затем кодирование слов с помощью словаря языка жестов. На данном этапе не требуется удалять знаки препинания и стоп-слова, поскольку они связаны с точностью N-граммовой модели. На второй фазе вместо использования синтаксического анализа применяется статистический метод формирования последовательности жестов. При этом за основу берется марковская модель на графе переходов между словами, в которой вероятность следующего слова зависит только от двух предыдущих слов. Вероятности переходов вычисляются на существующем размеченном наборе ViSL. Метод графового поиска в ширину используется для составления списка всех предложений, сгенерированных на основе заданного грамматического правила и матрицы семантического взаимодействия между словами. Обратное значение логарифма произведения вероятности совместного появления последовательных словосочетаний из трех слов в предложении используется для оценки частоты встречаемости этого предложения в заданном наборе данных. Основные результаты. Основываясь на данных ViSL, состоящих из 3234 слов, рассчитаны матрицы вероятности, представляющие отношения между словами, на основе данных ViSL с 50 млн предложений, собранных из вьетнамских газет и журналов. Для различных грамматических правил выполнено сравнение количества сгенерированных предложений и оценка точности 50 наиболее часто встречающихся предложений. Средняя точность составила 88 %. Точность сгенерированных предложений оценена статистическими методами. Показано, что число сгенерированных предложений зависит от количества частей слова, которые помечены в соответствии с правилами грамматики. Семантическая точность сгенерированных предложений высока, если поисковые слова помечены правильными частями речи. Обсуждение. По сравнению с методами машинного обучения, предлагаемая модель дает хорошие результаты для языков без словоизменений и порядка слов, следующих определенным правилам, таких как вьетнамский язык, и не требует больших вычислительных ресурсов. Недостатком модели является зависимость точности от типа слова, предложения и сегментации слов. Взаимосвязь слов зависит от наблюдаемого набора данных. Будущее направление исследований — создание абзацев на языке жестов. Полученные данные могут быть использованы в моделях машинного обучения для задач обработки языка жестов.
Ключевые слова: вьетнамский язык жестов, модель языка жестов, автоматически генерация предложений, n-грамм, модель
Маркова, метод графового поиска в ширину, обогащение данных, грамматические правила
Список литературы
Список литературы
- Katti R.K., Sujatha C., Desai P., Shankar G. Character and word level gesture recognition of indian sign language // Proc. of the 2023 IEEE 8th International Conference for Convergence in Technology (I2CT). 2023. P. 1–6. https://doi.org/10.1109/I2CT57861.2023.10126314
- Naz N., Sajid H., Ali S., Hasan O., Ehsan M.K. Signgraph: An efficient and accurate pose-based graph convolution approach toward sign language recognition // IEEE Access. 2023. V. 11. P. 19135–19147. https://doi.org/10.1109/ACCESS.2023.3247761
- Boháček M., Hrúz M. Sign pose-based transformer for word-level sign language recognition // Proc. of the 2022 IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (WACVW). 2022. P. 182–191. https://doi.org/10.1109/WACVW54805.2022.00024
- Jiang Y., Li F., Li Z., Liu Z., Wang Z. Enhancing continuous sign language recognition with Self-Attention and MediaPipe Holistic // Proc. of the 2023 8th International Conference on Instrumentation, Control, and Automation (ICA). 2023. P. 97–102. https://doi.org/10.1109/ICA58538.2023.10273118
- Nayan N., Ghosh D., Pradhan P.M. An unsupervised learning approach to handle movement epenthesis in continuous sign language recognition // Proc. of the 2022 17th International Conference on Control, Automation, Robotics and Vision (ICARCV). 2022. P. 862–867. https://doi.org/10.1109/ICARCV57592.2022.10004317
- Tran K.B., Nguyen U.D., Huynh Q.T. Continuous sign language recognition using MediaPipe // Proc. of the 2023 International Conference on Advanced Technologies for Communications (ATC). 2023. P. 493–498. https://doi.org/10.1109/ATC58710.2023.10318855
- Quach L.-D., Nguyen C.-N. Conversion of the Vietnammese grammar into sign language structure using the example-based machine translation algorithm // Proc. of the 2018 International Conference on Advanced Technologies for Communications (ATC). 2018. P. 27–31. https://doi.org/10.1109/ATC.2018.8587584
- Kagirov I., Ryumin D., Ivanko D., Axyonov A., Karpov A. Russian sign language: History, grammar and sociolinguistic situation in brief // Proc. of the Language Technologies for All (LT4All). 2019. P. 71–74.
- Singh C., Bansal R.K., Bansal S. Machine translation techniques using AI: A review // Proc. of the 2023 IEEE International Conference on Computer Vision and Machine Intelligence (CVMI). 2023. P. 1–5. https://doi.org/10.1109/CVMI59935.2023.10464455
- Tan M., Chen D., Li Z., Wang P. Spelling error correction with BERT based on character-phonetic // Proc. of the 2020 IEEE 6th International Conference on Computer and Communications (ICCC). 2020. P. 1146–1150. https://doi.org/10.1109/ICCC51575.2020.9345276
- Huang C., Feng Y., Zhang Y., Zhang W. Knowledge Base System of Electrical equipment management and potential risk control based on natural language processing technology // Proc. of the 2023 Asia-Europe Conference on Electronics, Data Processing and Informatics (ACEDPI). 2023. P. 439–445. https://doi.org/10.1109/ACEDPI58926.2023.00090
- Liu S., Tang R., Chai J. A news automatic tagging method based on statistical language model // Proc. of the 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). 2017. P. 1–5. https://doi.org/10.1109/CISP-BMEI.2017.8302092
- Xiao J., Zhou Z. Research Progress of RNN Language Model // Proc. of the 2020 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA). 2020. P. 1285–1288. https://doi.org/10.1109/ICAICA50127.2020.9182390
- Ganai F., Khursheed F. Predicting next Word using RNN and LSTM cells: Stastical Language Modeling // Proc. of the 2019 Fifth International Conference on Image Information Processing (ICIIP). 2019. P. 469–474. https://doi.org/10.1109/ICIIP47207.2019.8985885
- Acheampong F.A., Nunoo-Mensah H., Chen W. Recognizing emotions from texts using an ensemble of transformer-based language models // Proc. of the 2021 18th International Computer Conference on Wavelet Active Media Technology and Information Processing (ICCWAMTIP). 2021. P. 161–164. https://doi.org/10.1109/ICCWAMTIP53232.2021.9674102
- Lee H., Kim J.-H., Hwang E.J., Kim J., Park J.C. Leveraging large language models with vocabulary sharing for sign language translation // Proc. of the 2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops (ICASSPW). 2023. P. 1–5. https://doi.org/10.1109/ICASSPW59220.2023.10193533
- Garg H., Gupta I., Kumar K., Kaur B., Pundir D. Artificial intelligence based dynamic approach to visualize the graphs // Proc. of the 2023 International Conference on Computational Intelligence, Communication Technology and Networking (CICTN). 2023. P. 663–667. https://doi.org/10.1109/CICTN57981.2023.10140873