ДЕТЕКТИРОВАНИЕ АТАК НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ В ТЕЛЕФОННОМ КАНАЛЕ

Лаврентьева Галина Михайловна

doi:10.17586/2226-1494-2018-18-4-663-668

2018 , ТОМ 18, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2018-18-4-663-668

УДК 004.93, 57.087.1

ДЕТЕКТИРОВАНИЕ АТАК НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ В ТЕЛЕФОННОМ КАНАЛЕ

Лаврентьева Г.М.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования: Лаврентьева Г.М. Детектирование атак на голосовые биометрические системы в телефонном канале // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 4. С. 663–668. doi: 10.17586/2226-1494-2018-18-4-663-668

Аннотация

Предмет исследования. Исследована проблема детектирования атак на голосовые биометрические системы (спуфинг-атак) в телефонном канале. На сегодняшний день детектирование атак на голосовые биометрические системы является приоритетным направлением в области аутентификации диктора по голосу. Результаты конкурса по детектированию спуфинг-атак Automatic Speaker Verification Spoofing and Countermeasures Challenge 2015 и 2017 годов подтвердили высокие перспективы в детектировании неизвестных заранее типов атак в микрофонном канале. Однако аналогичная задача в телефонном канале остается крайне актуальной, например, в банковской сфере.Метод. Исследован подход на основе глубоких нейронных сетей для решения описанной задачи, в частности конволюционных нейронных сетей с Max-Feature-Map активационной функцией.Основные результаты.Эксперименты, проведенные в рамках этого исследования на реальных телефонных атаках, показали недостаточную эффективность систем, обученных на данных с эмулированным телефонным каналом, вследствие чего была собрана база реальных атак в телефонном канале. Лучшая система продемонстрировала ошибку EER, равную 1,5%, на подмножестве атак повторного воспроизведения, 1,7% на атаках преобразования голоса и 2,8% на атаках, использующих синтезированный голос. Тем не менее, эксперименты показывают необходимость расширения обучающей выборки на различные условия записи, в силу влияния большого количества факторов на канал связи.Практическая значимость. Результаты работы могут найти применение в области голосовой биометрии. Представленные методы могут быть использованы в системах автоматической верификации и идентификации дикторов по голосу для детектирования атак с целью взлома.

Ключевые слова: детектирование анти-спуфинг, изменение канала связи, CNN

Благодарности. Работа выполнена в рамках темы ПНИЭР «Разработка технологии автоматической бимодальной верификации по лицу и голосу с защитой от использования подложных биометрических образцов» при финансовой поддержке Министерства образования и науки Российской Федерации по соглашению о предоставлении субсидии №14.578.21.0189 от 03.10.2016 RFMEFI57816X0189.

Список литературы

Hautamki R., Kinnunen T., Hautamki V., Laukkanen A.-M. Automatic versus human speaker verification: the case of voice mimicry // Speech Communication. 2015. V. 72. P. 13–31. doi: 10.1016/j.specom.2015.05.002
Evans N., Kinnunen T., Yamagishi J. Spoofing and countermeasures for automatic speaker verification // Proc. of Interspeech. Lyon, France, 2013. P. 925–929.
Wu Z., Evans N., Kinnunen T., Yamagishi J., Alegre F., Li H. Spoofing and countermeasures for speaker verification: a survey // Speech Communication. 2015. V. 66. P. 130–153.doi: 10.1016/j.specom.2014.10.005
Wu Z., Yamagishi J., Kinnunen T., Hanilci C., Sahidullah M., Sizov A., Evans N., Todisco M., Delgado H. ASVspoof: the automatic speaker verification spoofing and countermeasures challenge // IEEE Journal on Selected Topics in Signal Processing. 2017. V. 11. N 4. P. 588–604. doi: 10.1109/JSTSP.2017.2671435
Lavrentyeva G., Novoselov S., Malykh E., Kozlov A., Kudashev O., Shchemelinin V. Audio replay attack detection with deep learning frameworks // Proc. of Interspeech. Stockholm, Sweden, 2017. P. 82–86.doi: 10.21437/Interspeech.2017-360
Karpathy A., Toderici G., Shetty S., Leung T., Sukthankar R., Fei-Fei L. Large-scale video classification with convolutional neural networks // Proc. of IEEE Conf. on Computer Vision and Pattern Recognition. Columbus, USA,2014. P. 1725–1732. doi: 10.1109/CVPR.2014.223
Bengio Y., Courville A., Vincent P. Representation learning: a review and new perspectives // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. V. 35. N 8. P. 1798–1828. doi: 10.1109/TPAMI.2013.50
Krizhevsky A., Sutskever I., Hinton G. E. ImageNet classification with deep convolutional neural networks // Advances Inneural Information Processing Systems. Lake Tahoe, USA,2012. P. 1097–1105.
Taigman Y., Yang M., Ranzato M., Wolf L. DeepFace: closing the gap to human-level performance in face verification // Proc. of IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA,2014. P. 1701–1708. doi: 10.1109/CVPR.2014.220
Волкова С.С., Матвеев Ю.Н. Применение сверточных нейронных сетей для решения задачи противодействия атаке спуфинга в системах лицевой биометрии // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 4. С. 702–710. doi: 10.17586/2226-1494-2017-17-4-702-710
Delgado H., Todisco M., Evans N., Sahidullah M., Liu W.M., Alegre F., Kinnunen T., Fauve B. Impact of bandwidth and channel variation on presentation attack detection for speaker verification // Lecture Notes in Informatics. Darmstadt, Germany, 2017. Art. 8053510.doi: 10.23919/BIOSIG.2017.8053510
Chistikov P., Zakharov D., Talanov A. Improving speech synthesis quality for voices created from an audio book database // Lecture Notes in Computer Science. 2014. V. 8773. P. 276–283.
Многоканальная система регистрации телефонных вызовов и речевых сообщений Незабудка II[Электронный ресурс]. URL: https://www.speechpro.ru/product/sistemy-zapisi-telefonnykh-razgovorov/nezabudka-2, своб. Яз. рус. (дата обращения 05.06.2018)
Многоканальная система автоматического оповещения абонентов по телефонным линиям Рупор [Электронный ресурс]. URL: https://www.speechpro.ru/product/sistemy-rechevogo-opovesheniya/rupor, своб. Яз. рус. (дата обращения 05.06.2018)
NIST Speaker Recognition Evaluation 2012 Database [Электронный ресурс]. URL: https://www.nist.gov/itl/iad/mig/sre12-results, своб. Яз. рус. (дата обращения 05.06.2018)
Wu X., He R., Sun Z., Tan T. A light CNN for deep face representation with noisy labels // IEEE Journal of Selected Topics in Signal Processing. 2018. V. 13. N 11. P. 2884–2896. doi: 10.1109/TIFS.2018.2833032
Симончик К.К., Галинина О.С., Капустин А.И. Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора // Научно-технические ведомости СПбГПУ. 2010. № 4(103). С. 18–23.
Markov K., Nakagawa S. Discriminative training of GMM using a modified EM algorithm for speaker recognition // Proc. of International Speech Communication Association. Sydney, Australia, 1998.
Дырмовский Д.В., Коваль С.Л., Хитров М.В. Концепция системы национального фоноучета и голосового биометрического поиска // Известия вузов. Приборостроение. 2014. Т. 57. № 2. С. 63–70.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License