DOI: 10.17586/2226-1494-2016-16-2-284-289


УДК621.391.037.372

ПОЛУАВТОМАТИЧЕСКАЯ СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРОВ

Булгакова Е.В., Шолохов А.В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Булгакова Е.В., Шолохов А.В. Полуавтоматическая система верификации дикторов // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 2. С. 284–289. doi:10.17586/2226-1494-2016-16-2-284-289

Аннотация

Предмет исследования.Представлена полуавтоматическая система верификации диктора по речи на основе сравнения значений формант, статистик длительностей звуков, а также мелодических характеристик. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных систем верификации дикторов по голосу, обладающих высокой надежностью, а также низкой трудоемкостью за счет автоматизации процессов обработки данных для экспертного анализа. Описание системы. Впервые представлено описание системы, позволяющей анализировать сходство либо различие голосов дикторов на основе сравнения статистик длительностей фонем, формантных признаков и мелодических характеристик. Характерной особенностью предложенной системы, в основе которой лежит принцип фузирования (объединения) методов, является слабая корреляция между анализируемыми  признаками, что приводит к общему снижению ошибки распознавания диктора. Преимуществом системы является возможность проведения экспресс-исследования фонограмм благодаря автоматизации процессов подготовки данных и принятия решения. Описываются принципы работы методов и способ их фузирования. Основные результаты. Проведена апробация системы на базе 1190 пар записей «свой–свой» и 10450 пар записей вида «свой–чужой». Записи включают русскую речь дикторов-мужчин и дикторов-женщин. Точность распознавания составила 98,59% для записей мужской речи и 96,17% для записей женской речи. Также было экспериментально установлено, что из всех используемых методов наиболее надежным является формантный метод. Практическая значимость. Результаты эксперимента показали применимость предложенной системы для решения задачи распознавания диктора по голосу и речи в рамках проведения фоноскопической экспертизы.


Ключевые слова: фоноскопическая экспертиза, распознавание диктора, полуавтоматические методы верификации, статистика длительностей фонем, формантные признаки, мелодические характеристики

Список литературы

1. Галяшина Е.И. Лингвистический анализ в системах идентификации диктора: интегративный ком-плексный подход на базе экспертологии // Компьютерная лингвистика и интеллектуальные техноло-гии. 2015. T. 1. С. 156–169.
2. Булгакова Е.В., Шолохов А.В., Томашенко Н.А. Метод идентификации дикторов на основе сравнения статистик длительностей фонем // Научно-технический вестник информационных технологий, меха-ники и оптики. 2015. Т. 15. № 1 (95). С. 70–77. doi: 10.17586/2226-1494-2015-15-1-70-77
3. Smirnova N., Starshinov A., Goloshchapova T., Oparin I. Using parameters of identical pitch contour ele-ments for speaker discrimination // Proc. 12th Int. Conf. on Speech and Computer (SPECOM 2007). Moscow, Russia, 2007. P. 361–366.
4. Becker T., Jessen M., Grigoras C. Forensic speaker verification using formant features and Gaussian mixture models // Proc. 9th Annual Conference of the International Speech Communication (INTERSPEECH 2008). Brisbane, Australia, 2008. P. 1505–1508.
5. Kunzel H.J., Masthoff H.R., Koster J.P. The relation between speech tempo, loudness, and fundamental fre-quency: an important issue in forensic speaker recognition // Science and Justice. 1995. V. 35. N 4. P. 291–295. doi: 10.1016/S1355-0306(95)72683-1
6. Nolan F. Intonation in speaker identification: an experiment on pitch alignment features // Speech, Language and the Law. 2002. V. 9. N 1. P. 1–21.
7. Morrison G.S. Likelihood-ratio-based forensic speaker comparison using representations of vowel formant trajectories // Journal of the Acoustical Society of America. 2009. V. 125. P. 2387–2397. doi: 10.1121/1.3081384
8. Nolan F., Grigoras C. A case for formant analysis in forensic speaker identification // International Journal of Speech Language and the Law. 2005. V. 12. N 2. P. 143–173. doi: 10.1558/sll.2005.12.2.143
9. Rose P., Osanai T., Kinoshita Y. Strength of forensic speaker identification evidence: multispeaker formant- and cepstrum-based segmental discrimination with a Bayesian likelihood ratio as threshold // Speech Lan-guage and the Law. 2003. V. 10. N 2. P. 179–202.
10. Dellwo V., Leemann A., Kolly M.-J. Speaker idiosyncratic rhythmic features in the speech signal // Proc. 13th Annual Conference of the International Speech Communication Association (INTERSPEECH 2012). Port-land, USA, 2012. P. 1582–1585.
11. Leemann A., Kolly M.-J., Dellwo V. Speaker-individuality in suprasegmental temporal features: implications for forensic voice comparison // Forensic Science International. 2014. V. 238. P. 59–67. doi: 10.1016/j.forsciint.2014.02.019
12. Van Heerden C., Barnard E. Speaker-specific variability of phoneme durations // South African Computer Journal. 2008. V. 40. P. 44–50.
13. Матвеев Ю.Н. Исследование информативности признаков речи для систем автоматической иденти-фикации дикторов // Изв. вузов. Приборостроение. 2013. Т. 56. № 2. С. 47–51.
14. Reynolds D.A., Quatieri T.E., Dunn R.B. Speaker verification using adapted Gaussian mixture models // Dig-ital Signal Processing. 2000. V. 10. N 1. P. 19–41. doi: 10.1006/dspr.1999.0361
15. Матвеев Ю.Н. Оценка доверительного интервала общего решения ансамбля классификаторов // Изв. вузов. Приборостроение. 2013. Т. 56. № 2. С. 74–79.
16. The NIST year 2010 Speaker Recognition Evaluation plan [Электронный ресурс]. Режим доступа: http://www.itl.nist.gov/iad/mig/tests/sre/2010/NIST_SRE10_evalplan.r6.pdf, свободный (дата обращения 02.02.2016).
17. Bulgakova E., Sholohov A., Tomashenko N., Matveev Y. Speaker verification using spectral and durational segmental characteristics // Lecture Notes in Computer Science. 2015. V. 9319. P. 397–404. doi: 10.1007/978-3-319-23132-7_49
18. Kozlov A., Kudashev O., Matveev Y., Pekhovsky T., Simonchik K., Shulipa A. SVID speaker recognition system for the NIST SRE 2012 // Lecture Notes in Computer Science. 2013. V. 8113 LNAI. P. 278–285. doi: 10.1007/978-3-319-01931-4_37
 



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика