ВЗАИМОДЕЙСТВИЕ С УСТРОЙСТВАМИ ИНТЕРНЕТА ВЕЩЕЙ С ИСПОЛЬЗОВАНИЕМ ГОЛОСОВОГО ИНТЕРФЕЙСА

Шматков Владислав Николаевич, Бонковски Патрик, Медведев Дмитрий Сергеевич, Корзухин Сергей Владиславович, Голендухин Денис Валерьевич, Спыну Сергей Федорович, Муромцев Дмитрий Ильич

doi:10.17586/2226-1494-2019-19-4-714-721

2019 , ТОМ 19, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2019-19-4-714-721

УДК 004.522

ВЗАИМОДЕЙСТВИЕ С УСТРОЙСТВАМИ ИНТЕРНЕТА ВЕЩЕЙ С ИСПОЛЬЗОВАНИЕМ ГОЛОСОВОГО ИНТЕРФЕЙСА

Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 4. С. 714–721. doi: 10.17586/2226-1494-2019-19-4-714-721

Аннотация

Предмет исследования. Рассмотрены современные наиболее популярные голосовые ассистенты для управления устройствами интернета вещей, представленные на рынке, такие как Google Cloud Speech-to-Text, Amazon Transcribe, IBM Speech to Text, Yandex SpeechKit. Выявлены их достоинства и недостатки. Для работы голосовых ассистентов необходимо подключение к сети Интернет с целью обработки получаемых данных в «облаке», а также для синхронизации и управления устройствами пользователя. Большой практический интерес могут представлять голосовые ассистенты, которым не требуется наличие подключения к сети Интернет. Метод. В данной статье предложена модель организации локального (без использования сети Интернет) распознавания речи с использованием мобильных устройств. В качестве системы распознавания спонтанной речи используется программное обеспечение CMU Sphinx, осуществляющее распознавание речи с одновременным применением акустической и языковой моделей, а также трансляцию распознанной речи в команды, понятные системе, построенной на базе открытой платформы управления устройствами «OpenHab». Предложен подход к описанию грамматик и формированию словаря для распознавания речи. Приведен пример словаря и описания грамматики для речевой системы управления подключенными устройствами. Для тестирования описываемого в статье подхода создан демонстрационный стенд, основой которого является одноплатный персональный компьютер Raspberry Pi с установленным программным обеспечением openHab, и построены устройства интернета вещей на базе микроконтроллеров ESP8266. Основные результаты. Реализовано голосовое управление устройствами интернета вещей, которое осуществляется с применением протокола MQTT. Реализовано взаимодействие с сервером по протоколу HTTP. Проведено тестирование распознавания голосовых команд. Показана возможность практического применения предложенного в статье подхода к распознаванию спонтанной речи. Практическая значимость. Данная модель позволяет описать и подключить к системе значительное число устройств интернета вещей, представленных на рынке. Используя данную модель можно минимизировать или исключить влияние работоспособности сторонних внешних сервисов на работу системы голосового управления устройствами интернета вещей.

Ключевые слова: человеко-компьютерное взаимодействие, интернет вещей, голосовое управление, умный дом, управление устройствами

Список литературы

Gershenfeld N.A. When Things Start to Think. New York: Henry Holt and Company, 2000. 224 p.
Беленко М.В., Балакшин П.В. Сравнительный анализ систем распознавания речи с открытым кодом // Международный научно-исследовательский журнал. 2017. № 4-4. С. 13–18. doi: 10.23670/IRJ.2017.58.141
Dernoncourt F., Bui T., Chang W. A framework for speech recognition benchmarking // Proc. Interspeech. Hyderabad, India, 2018. P. 169–170.
Povey D., Ghoshal A., Boulianne G. The Kaldi speech recognition toolkit // Proc. Workshop on Automatic Speech Recognition and Understanding. 2011.
Lamere P. et al. The CMU SPHINX-4 speech recognition system // IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Hong Kong, 2003. V. 1. P. 2–5.
Balandin S., Andreev S., Koucheryavy Y. (Eds.) Internet of Things, Smart Spaces, and Next Generation Networks and Systems. Springer, 2015. 713 p.doi: 10.1007/978-3-319-10353-2
Pratap V., Hannun A., Xu Q. et al. Wav2Letter++: A fastest open-source speech recognition system // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Brighton, UK, 2019. doi: 10.1109/icassp.2019.8683535
Mehrabani M., Bangalore S., Stern B. Personalized speech recognition for Internet of Things // Proc. IEEE 2^nd World Forum on Internet of Things. Milan, Italy, 2015. P. 369–374. doi: 10.1109/WF-IoT.2015.7389082
Levis J., Suvorov R. Automatic speech recognition // The Encyclopedia of Applied Linguistics. 2012. doi: 10.1002/9781405198431.wbeal0066
Sharma A.S., Bhalley R. ASR – A real-time speech recognition on portable devices // Proc. 2^nd Int. Conf. on Advances in Computing, Communication, & Automation. Bareilly, India, 2016. doi: 10.1109/ICACCAF.2016.7749004
Дикий Д.И., Артемьева В.Д. Протокол передачи данных MQTT в модели удаленного управления правами доступа для сетей интернета // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. №1. С. 109–117. doi: 10.17586/2226-1494-2019-19-1-109-117
Maarala A.I., Su X., Riekki J. Semantic reasoning for context-aware Internet of Things applications // IEEE Internet of Things Journal. 2016. V. 4. N 2. P. 461–473. doi: 10.1109/jiot.2016.2587060
McLaren M., Lei Y., Ferrer L. Advances in deep neural network approaches to speaker recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Brisbane, Australia, 2015. P. 4814–4818. doi: 10.1109/ICASSP.2015.7178885
Matejka P., Glembek O., Novotny O. et al. Analysis of DNN approaches to speaker identification // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China,2016. P. 5100–5104. doi: 10.1109/ICASSP.2016.7472649
Бучнева Т.И., Кудряшов М.Ю. Нейронные сети в задаче идентификации диктора по голосу // Вестник ТвГУ. Серия: Прикладная математика. 2015. № 2. С. 119–126.
Ge Z. et al. Neural network based speaker classification and verification systems with enhanced features // Proc. Intelligent Systems Conference. London, 2017. P. 1089–1094. doi: 10.1109/IntelliSys.2017.8324265

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License