НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2019-19-4-714-721
УДК 004.522
ВЗАИМОДЕЙСТВИЕ С УСТРОЙСТВАМИ ИНТЕРНЕТА ВЕЩЕЙ С ИСПОЛЬЗОВАНИЕМ ГОЛОСОВОГО ИНТЕРФЕЙСА
Читать статью полностью
Ссылка для цитирования:
Шматков В.Н., Бонковски П., Медведев Д.С., Корзухин С.В., Голендухин Д.В., Спыну С.Ф., Муромцев Д.И. Взаимодействие с устройствами интернета вещей с использованием голосового интерфейса // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 4. С. 714–721. doi: 10.17586/2226-1494-2019-19-4-714-721
Аннотация
Предмет исследования. Рассмотрены современные наиболее популярные голосовые ассистенты для управления устройствами интернета вещей, представленные на рынке, такие как Google Cloud Speech-to-Text, Amazon Transcribe, IBM Speech to Text, Yandex SpeechKit. Выявлены их достоинства и недостатки. Для работы голосовых ассистентов необходимо подключение к сети Интернет с целью обработки получаемых данных в «облаке», а также для синхронизации и управления устройствами пользователя. Большой практический интерес могут представлять голосовые ассистенты, которым не требуется наличие подключения к сети Интернет. Метод. В данной статье предложена модель организации локального (без использования сети Интернет) распознавания речи с использованием мобильных устройств. В качестве системы распознавания спонтанной речи используется программное обеспечение CMU Sphinx, осуществляющее распознавание речи с одновременным применением акустической и языковой моделей, а также трансляцию распознанной речи в команды, понятные системе, построенной на базе открытой платформы управления устройствами «OpenHab». Предложен подход к описанию грамматик и формированию словаря для распознавания речи. Приведен пример словаря и описания грамматики для речевой системы управления подключенными устройствами. Для тестирования описываемого в статье подхода создан демонстрационный стенд, основой которого является одноплатный персональный компьютер Raspberry Pi с установленным программным обеспечением openHab, и построены устройства интернета вещей на базе микроконтроллеров ESP8266. Основные результаты. Реализовано голосовое управление устройствами интернета вещей, которое осуществляется с применением протокола MQTT. Реализовано взаимодействие с сервером по протоколу HTTP. Проведено тестирование распознавания голосовых команд. Показана возможность практического применения предложенного в статье подхода к распознаванию спонтанной речи. Практическая значимость. Данная модель позволяет описать и подключить к системе значительное число устройств интернета вещей, представленных на рынке. Используя данную модель можно минимизировать или исключить влияние работоспособности сторонних внешних сервисов на работу системы голосового управления устройствами интернета вещей.
Список литературы
-
Gershenfeld N.A. When Things Start to Think. New York: Henry Holt and Company, 2000. 224 p.
-
Беленко М.В., Балакшин П.В. Сравнительный анализ систем распознавания речи с открытым кодом // Международный научно-исследовательский журнал. 2017. № 4-4. С. 13–18. doi: 10.23670/IRJ.2017.58.141
-
Dernoncourt F., Bui T., Chang W. A framework for speech recognition benchmarking // Proc. Interspeech. Hyderabad, India, 2018. P. 169–170.
-
Povey D., Ghoshal A., Boulianne G. The Kaldi speech recognition toolkit // Proc. Workshop on Automatic Speech Recognition and Understanding. 2011.
-
Lamere P. et al. The CMU SPHINX-4 speech recognition system // IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Hong Kong, 2003. V. 1. P. 2–5.
-
Balandin S., Andreev S., Koucheryavy Y. (Eds.) Internet of Things, Smart Spaces, and Next Generation Networks and Systems. Springer, 2015. 713 p.doi: 10.1007/978-3-319-10353-2
-
Pratap V., Hannun A., Xu Q. et al. Wav2Letter++: A fastest open-source speech recognition system // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Brighton, UK, 2019. doi: 10.1109/icassp.2019.8683535
-
Mehrabani M., Bangalore S., Stern B. Personalized speech recognition for Internet of Things // Proc. IEEE 2nd World Forum on Internet of Things. Milan, Italy, 2015. P. 369–374. doi: 10.1109/WF-IoT.2015.7389082
-
Levis J., Suvorov R. Automatic speech recognition // The Encyclopedia of Applied Linguistics. 2012. doi: 10.1002/9781405198431.wbeal0066
-
Sharma A.S., Bhalley R. ASR – A real-time speech recognition on portable devices // Proc. 2nd Int. Conf. on Advances in Computing, Communication, & Automation. Bareilly, India, 2016. doi: 10.1109/ICACCAF.2016.7749004
-
Дикий Д.И., Артемьева В.Д. Протокол передачи данных MQTT в модели удаленного управления правами доступа для сетей интернета // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. №1. С. 109–117. doi: 10.17586/2226-1494-2019-19-1-109-117
-
Maarala A.I., Su X., Riekki J. Semantic reasoning for context-aware Internet of Things applications // IEEE Internet of Things Journal. 2016. V. 4. N 2. P. 461–473. doi: 10.1109/jiot.2016.2587060
-
McLaren M., Lei Y., Ferrer L. Advances in deep neural network approaches to speaker recognition // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Brisbane, Australia, 2015. P. 4814–4818. doi: 10.1109/ICASSP.2015.7178885
-
Matejka P., Glembek O., Novotny O. et al. Analysis of DNN approaches to speaker identification // Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing. Shanghai, China,2016. P. 5100–5104. doi: 10.1109/ICASSP.2016.7472649
-
Бучнева Т.И., Кудряшов М.Ю. Нейронные сети в задаче идентификации диктора по голосу // Вестник ТвГУ. Серия: Прикладная математика. 2015. № 2. С. 119–126.
-
Ge Z. et al. Neural network based speaker classification and verification systems with enhanced features // Proc. Intelligent Systems Conference. London, 2017. P. 1089–1094. doi: 10.1109/IntelliSys.2017.8324265