doi: 10.17586/2226-1494-2021-21-4-545-552


УДК 004.934; 004.056.53

Алгоритм выявления синтезированного голоса на основе кепстральных коэффициентов и сверточной нейронной сети

Муртазин Р.А., Кузнецов А.Ю., Федоров Е.А., Гарипов И.М., Холоденина А.В., Балданова Ю.Б., Воробьева А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:

Муртазин Р.А., Кузнецов А.Ю., Фёдоров Е.А., Гарипов И.М., Холоденина А.В., Балданова Ю.Б., Воробьева А.А. Алгоритм выявления синтезированного голоса на основе кепстральных коэффициентов и сверточной нейронной сети // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 4. С. 545–552. doi: 10.17586/2226-1494-2021-21-4-545-552



Аннотация
Предмет исследования. Рассмотрены существующие подходы для выявления синтетической речи, базирующиеся на проблемах синтезирования голосовой последовательности. Представлено описание этапов и итоговая схема алгоритма выявления спуфинг-атак на голосовые биометрические системы. Основное внимание уделено обнаружению синтезированного голоса как наиболее опасного вида атак. Создан программный комплекс для проведения экспериментальных исследований, представлена его структура. Метод. Предложен алгоритм выявления синтезированного голосового образа. Алгоритм основан на использовании мел-частотных и Q-константных кепстральных коэффициентов для извлечения речевых признаков. Для построения модели пользователя использована модель гауссовых смесей. В качестве классификатора для принятия решения о подлинности голоса выбрана сверточная нейронная сеть. Основные результаты. Для сопоставления выбраны два базовых решения противодействия спуфинг-атакам, предложенные авторами конкурса ASVspoof2019. В одном из решений в качестве извлекаемых речевых признаков использованы линейно-частотные кепстральные коэффициенты, в другом — Q-константные. В обоих решениях в качестве классификатора применена модель гауссовых смесей. Для оценки эффективности предложенного решения и сравнения его с другими выбраны метрики EER и minDCF и сформирована голосовая база. Экспериментальные результаты продемонстрировали преимущество разработанного алгоритма перед другими рассмотренными вариантами. Достоинство представленного решения — применение извлекаемых речевых признаков, имеющих высокие результаты и для идентификации пользователя. Это позволяет оптимизировать голосовую биометрическую систему с внедренной защитой от спуфинг-атак посредством синтеза голоса. Сам алгоритм при внесении незначительных модификаций может быть использован для голосовой идентификации. Практическая значимость. Голосовые биометрические системы имеют высокий потенциал применения в банковской сфере. Такие системы позволят финансовым организациям ускорить и упростить осуществление денежных операций, и предоставить пользователям расширенный функционал в удаленном режиме. Внедрение систем голосовой биометрической идентификации осложняется их уязвимостью для спуфинг-атак, в частности посредством синтеза голоса. Предложенное решение может быть интегрировано в системы голосовой биометрии с целью повышения их надежности.

Ключевые слова: биометрия, голосовые биометрические системы в банковской сфере, синтезированная речь, выявление фальсификации голоса, кепстральный анализ, сверточная нейронная сеть

Благодарности. Работа выполнена в Университете ИТМО в рамках темы НИР № 50449 «Разработка алгоритмов защиты киберпространства для решения прикладных задач обеспечения кибербезопасности организаций банковской сферы».

Список литературы
  1. Мартынова А.Б., Пашковский М.Ю. Электронный банкинг и мобильный банкинг // Научно-техническое творчество аспирантов и студентов: материалы 45-й научно-технической конференции студентов и аспирантов ФГБОУ ВПО «КнАГТУ». Комсомольск-на-Амуре, 2015. С. 333–335.
  2. Шилов Н.М. Области применения идентификации личности по голосу // Инновации. Наука. Образование. 2021. № 27. С. 1292–1297.
  3. Маслова Е.В. Развитие рынка биометрических технологий в банковской сфере // Современные проблемы и перспективы развития банковского сектора России: Материалы III Всероссийской научно-практической конференции с международным участием. Тамбов: Тамбовский государственный университет им. Г.Р. Державина, 2018. С. 109–118.
  4. Васильев Р.А., Николаев Д.Б. Анализ возможностей применения голосовой идентификации в системах разграничения доступа к информации // Научный результат. Информационные технологии. 2016. Т. 1. № 1. С. 48–57. https://doi.org/10.18413/2518-1092-2016-1-1-48-57
  5. KuznetsovA.Yu., MurtazinR.A., GaripovI.M., FedorovE.A., KholodeninaA.V., VorobevaA.A. Methodsofcounteringspeechsynthesisattacksonvoicebiometricsystemsinbanking// Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21. № 1. С. 109–117. https://doi.org/10.17586/2226-1494-2021-21-1-109-117
  6. Кузнецов Д.А., Кузнецов А.В., Тезин А.В., Басов О.О. Сравнительный анализ синтезаторов речи для подсистемы оповещения интеллектуального зала совещаний // Научный результат. Информационные технологии. 2018. Т. 3. № 3. С. 9–14. https://doi.org/10.18413/2518-1092-2018-3-3-0-2
  7. Todisco M., Delgado H., Evans N. A new feature for automatic speaker verification anti-spoofing: Constant Q cepstral coefficients // Odyssey 2016: Speaker and Language Recognition Workshop. 2016. P. 283–290. https://doi.org/10.21437/Odyssey.2016-41
  8. Paul D., Sahidullah M., Saha G. Generalization of spoofing countermeasures: A case study with ASVspoof 2015 and BTAS 2016 corpora // Proc. of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2017. P. 2047–2051. https://doi.org/10.1109/ICASSP.2017.7952516
  9. Bilmes J.A. A Gentle Tutorial of the EM Algorithm and Its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models: technical report ICSI-TR-97-021. Berkeley: University of Berkeley, 1998. 13 p.
  10. Чернецова Е.А., Шишкин А.Д. Алгоритм идентификации личности по голосу для санкционирования доступа к информации // Международный научно-исследовательский журнал. 2019. № 2(80). С. 59–64. https://doi.org/10.23670/IRJ.2019.80.2.010
  11. Chow D., Abdulla W.H. Robust speaker identification based on perceptual log area ratio and Gaussian mixture models // Proc. 8th International Conference on Spoken Language Processing, (ICSLP 2004). 2004. P. 1761–1764.
  12. Sholokhov A., Sahidullah M., Kinnunen T. Semi-supervised speech activity detection with an application to automatic speaker verification // Computer Speech & Language. 2018. V. 47. P. 132–156. https://doi.org/10.1016/j.csl.2017.07.005


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2021 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика