УДК 004.934.8’1; 004.056.53

МЕТОДЫ ПРОТИВОДЕЙСТВИЯ АТАКАМ ПОСРЕДСТВОМ СИНТЕЗА РЕЧИ НА ГОЛОСОВЫЕ БИОМЕТРИЧЕСКИЕ СИСТЕМЫ В БАНКОВСКОЙ СФЕРЕ

Кузнецов А.Ю., Муртазин Р.А., Гарипов И.М., Холоденина А.В., Воробьева А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Кузнецов А.Ю., Муртазин Р.А., Гарипов И.М., Фёдоров Е.А., Холоденина А.В., Воробьева А.А. Методы противодействия атакам посредством синтеза речи на голосовые биометрические системы в банковской сфере // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 1. С. 109–117 (на англ. яз.). doi: 10.17586/2226-1494-2021-21-1-109-117


Аннотация
Рассмотрены методы противодействия атакам синтеза речи на банковские голосовые биометрические системы. Безопасность голосовых биометрических систем является масштабной проблемой, значительно развивающаяся в последние годы. Системы автоматической верификации говорящего (ASV) уязвимы для различных типов спуфинг-атак: имперсонализация, повторное воспроизведение, преобразование и синтез речи. Технологии синтеза речи стремительно развиваются (GAN, Unit selection, RNN и др.), поэтому такие атаки сегодня наиболее опасны. Показано, что противодействие спуфинг-атакам может быть основано на поиске аномалий фазы и частоты тона, которые появляются во время синтеза речи, а также на предварительном знании акустических различий конкретных синтезаторов речи. Безопасность ASV остается нерешенной проблемой, не существует универсального решения, которое бы не зависело от используемых злоумышленником методов синтеза речи. Представлен анализ существующих технологий синтеза речи. Рассмотрены наиболее перспективные методы обнаружения атак для банковских и финансовых организаций. Комплекс мер должен учитывать эмоциональное состояние клиента банка, кепстральные характеристики голоса. Необходима регулярная корректировка голосового отпечатка пользователя для поддержания его актуальности. Анализируемый сигнал не должен быть слишком плавным, содержать неестественные шумы, резкие перерывы, изменения уровня сигнала. Важное значение имеют внятность речи, выявление и учет ее семантических особенностей. База динамических паролей должна содержать сложно синтезируемые и произносимые слова. Предлагаемый подход может быть использован для проектирования и разработки систем аутентификации для банковских и финансовых организаций, устойчивых к атакам синтеза речи.

Ключевые слова: биометрия, распознавание по голосу, аутентификация в банковской сфере, синтезированная речь, выявление фальсификации голоса

Благодарности. Работа выполнена в Университете ИТМО в рамках темы НИР № 50449 «Разработка алгоритмов защиты киберпространства для решения прикладных задач обеспечения кибербезопасности организаций банковской сферы»

Список литературы
1. Подделка отпечатков пальцев — можно, но сложно [Электронный ресурс]. URL: https://www.kaspersky.ru/blog/sas2020-fingerprint- cloning/28101 (дата обращения: 20.12.2020)
2. Щемелинин В.Л. Методика и комплекс средств оценки эффективности аутентификации голосовыми биометрическими системами: диссертация на соискание ученой степени кандидата технических наук / НИУ ИТМО. СПб., 2015.
3. Гарипов И.М., Сулавко А.Е., Куприк И.А. Методы распознавания личности на основе анализа характеристик наружного уха (обзор) // Вопросы защиты информации. 2020. № 1(128). С. 33–41.
4. Судьенкова А.В. Обзор методов извлечения акустических признаков речи в задаче распознавания диктора // Сборник научных трудов Новосибирского государственного технического университета. 2019. № 3-4(96). С. 139–164. doi: 10.17212/2307-6879-2019-3-4-139-164
5. Paul D., Pal M., Saha G. Spectral features for synthetic speech detection // IEEE Journal of Selected Topics in Signal Processing. 2017. V. 11. N 4. P. 605–617. doi: 10.1109/JSTSP.2017.2684705
6. Huang T., Wang H., Chen Y., He P. GRU-SVM model for synthetic speech detection // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2020. V. 12022. P. 115–125. doi: 10.1007/978-3-030-43575-2_9
7. Yang J., Das R.K., Li H. Significance of subband features for synthetic speech detection // IEEE Transactions on Information Forensics and Security. 2020. V. 15. P. 2160–2170. doi: 10.1109/TIFS.2019.2956589
8. Sawada K. A statistical approach to speech synthesis and image recognition based on Hidden Markov Models: doctoral dissertation. Nagoya Institute of Technology, 2018.
9. Saratxaga I., Sanchez J., Wu Z., Hernaez I., Navas E. Synthetic speech detection using phase information // Speech Communication. 2016. V. 81. P. 30–41. doi: 10.1016/j.specom.2016.04.001
10. van Niekerk B., Nortje L., Kamper H. Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge // Proc. 21st Annual Conference of the International Speech Communication Association, INTERSPEECH. 2020. P. 4836-4840. doi: 10.21437/Interspeech.2020-1693
11. Wu Z., Yamagishi J., Kinnunen T., Hanilçi C., Sahidullah M., Sizov A., Evans N., Todisco M., Delgado H. ASVspoof: the automatic speaker verification spoofing and countermeasures challenge // IEEE Journal of Selected Topics in Signal Processing. 2017. V. 11. N 4. P. 588–604. doi: 10.1109/JSTSP.2017.2671435
12. Лаврентьева Г.М., Новосёлов С.А., Козлов А.В., Кудашев О.Ю. Щемелинин В.Л., Матвеев Ю.Н., Де Марсико М. Методы детек- тирования спуфинг-атак повторного воспроизведения на голосовые биометрические системы // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 3. С. 428–437. doi: 10.17586/2226-1494-2018-18-3-428-436
13. Hunt A.J., Black A.W. Unit selection in a concatenative speech synthesis system using a large speech database // Proc. of the 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP. 1996. P. 373–376. doi: 10.1109/ICASSP.1996.541110
14. Jiang Y., Zhou X.C., Hu Ding Y.J., Ling Z.H., Dai L.R. The USTC system for Blizzard Challenge 2018 // Blizzard Challenge Workshop. 2018.
15. Калиев С., Рыбин С.В. Синтез речи: прошлое и настоящее // Компьютерные инструменты в образовании. 2019. № 1. С. 5–28. doi: 10.32603/2071-2340-2019-1-5-28
16. Щемилинин В.Л., Симончик К.К. Исследование устойчивости голосовой верификации к атакам, использующим систему синтеза // Известия высших учебных заведений. Приборостроение. 2014. Т. 57. № 2. С. 84–88.
17. Сущенок О.А. Оценка эффективности работы биометрических систем // Системи обробки інформації. 2011. № 4. С. 79–81.
18. Wu Z., Gao S., Cling E.S., Li H. A study on replay attack and anti- spoofing for text-dependent speaker verification // Proc. of the Asia- Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2014. 2014. P. 7041636. doi: 10.1109/APSIPA.2014.7041636
19. Villalba J., Lleida E. Preventing replay attacks on speaker verification systems // Proc. of the IEEE International Carnahan Conference on Security Technology, ICCST. 2011. P. 06095943. doi: 10.1109/CCST.2011.6095943
20. Pal M., Paul D., Saha G. Synthetic speech detection using fundamental frequency variation and spectral features // Computer Speech & Language. 2018. V. 48. P. 31–50. doi: 10.1016/j.csl.2017.10.001
21. Alam M.J., Kenny P., Bhattacharya G., Stafylakis T. Development of CRIM system for the automatic speaker verification spoofing and countermeasures challenge 2015 // Proc. 16th Annual Conference of the International Speech Communication Association, INTERSPEECH’15. 2015. P. 2072–2076.
22. Xiao X., Tian X., Du S., Xu H., Chng E.S., Li H. Spoofing speech detection using high dimensional magnitude and phase features: The NTU approach for ASVspoof 2015 challenge // Proc. 16th Annual Conference of the International Speech Communication Association, INTERSPEECH’15. 2015. P. 2052–2056.
23. Patel T.B., Patil H.A. Combining evidences from mel cepstral, cochlear filter cepstral and instantaneous frequency features for detection of natural vs. spoofed speech // Proc. 16th Annual Conference of the International Speech Communication Association, INTERSPEECH’15. 2015. P. 2062–2066.
24. Correia M.J., Abad A., Trancoso I. Preventing converted speech spoofing attacks in speaker verification // Proc. 37th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO. 2014. P. 1320–1325. doi: 10.1109/MIPRO.2014.6859772
25. Nayana P.K., Mathew D., Thomas A. Performance comparison of speaker recognition systems using GMM and i-vector methods with PNCC and RASTA PLP features // Proc. of the International Conference on Intelligent Computing, Instrumentation and Control Technologies, ICICICT 2017. 2017. P. 438–443. doi: 10.1109/ICICICT1.2017.8342603


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2021 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика