НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2015-15-1-70-77
УДК 621.391.037.372
МЕТОД ИДЕНТИФИКАЦИИ ДИКТОРОВ НА ОСНОВЕ СРАВНЕНИЯ СТАТИСТИК ДЛИТЕЛЬНОСТЕЙ ФОНЕМ
Читать статью полностью
Ссылка для цитирования: Булгакова Е.В., Шолохов А.В., Томашенко Н.А. Метод идентификации дикторов на основе сравнения cтатистик длительностей фонем // Научно-технический вестник информационных технологий, механики и оптики. 2015. Том 15. № 1. С. 70–77
Аннотация
Предмет исследования. Представлен полуавтоматический метод идентификации диктора по речи на основе сравнения просодических признаков – статистик длительностей звуков. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных методов идентификации диктора по голосу, дополняющих с целью повышения надежности идентификации известные методы, а также обладающих низкой трудоемкостью. Эффективное решение данной проблемы необходимо для принятия надежного решения о тождестве либо различии голосов дикторов, представленных на фонограммах.
Описание метода. Впервые представлен алгоритм расчета оценки различия голосов дикторов на основе сравнения статистик длительностей фонем и аллофонов. Характерной особенностью предложенного метода является возможность его применения в комплексе с другими полуавтоматическими методами (акустическими, аудитивно-лингвистическими) в связи с отсутствием ярко выраженной корреляции между анализируемыми признаками. Преимуществом метода является возможность проведения экспресс-исследования фонограмм большой длительности за счет автоматизации процесса подготовки данных для анализа. Описываются принципы работы автоматического сегментатора речи, используемого для расчета статистик длительностей звуков по акустико-фонетической разметке. Программное обеспечение разработано в качестве инструмента подготовки данных для экспертного анализа.
Апробация метода. Метод апробирован на базе 130 речевых записей, включающей русскую речь дикторов-мужчин и дикторов-женщин, и показал надежность 71,7% на базе, содержащей записи женской речи, и 78,4% на базе, содержащей записи мужской речи. Также было экспериментально установлено, что из всех используемых признаков наиболее информативными являются статистики длительностей фонем гласных и сонорных согласных.
Практическая значимость. Результаты эксперимента показали применимость предложенного метода для решения задачи распознавания диктора по голосу и речи в рамках проведения фоноскопической экспертизы.
Благодарности. Работа выполнена при государственной финансовой поддержке ведущих университетов Российской Федерации (субсидия 074-U01).
Список литературы
1. Kozlov A., Kudashev O., Matveev Y., Pekhovsky T., Simonchik K., Shulipa A. SVID speaker recognition system for the NIST SRE 2012 // Lecture Notes in Computer Science. 2013. V. 8113 LNAI. P. 278–285. doi: 10.1007/978-3-319-01931-4_37
2. Продан А.И., Таланов А.О. Использование набора слуховых характеристик речи при идентификации по голосу // Материалы 14 международной конференции «Speech and Computer». SPECOM'2011. Ка- зань, 2011. С. 338–344.
3. Коваль С.Л., Хитров М.В. Идентификация дикторов при анализе разноязычных фонограмм на основе сравнения формантных спектров [Электронный ресурс]. Режим доступа: http://zhenilo.narod.ru/new_main/ips/2003_speech.pdf, свободный. Яз. рус. (дата обращения 7.11.2014).
4. Koval S. Formants matching as a robust method for forensic speaker identification // Proc. 11th Int. Conf. on Speech and Computer. St. Petersburg, 2006. P. 125–128.
5. Smirnova N., Starshinov A., Oparin I., Goloshchapova T. Using parameters of identical pitch contour elements for speaker discrimination // Proc. 12th Int. Conf. on Speech and Computer (SPECOM 2007). Moscow, Russia, 2007. P. 361–366.
6. Смирнова Н.С. Идентификация дикторов на основе сравнения параметров реализации мелодических контуров высказываний [Электронный ресурс]. Режим доступа: http://www.dialog- 21.ru/digests/dialog2007/materials/html/77.htm/ свободный. Яз. рус. (дата обращения 7.11.2014).
7. Коваль С.Л., Лабутин П.В., Пеховский Т.С., Прощина Е.А., Смирнова Е.А., Таланов А.О. Методика идентификации дикторов по голосу и речи на основе комплексного анализа фонограмм [Электронный ресурс]. Режим доступа: http://www.dialog-21.ru/digests/dialog2007/materials/html/39.htm, свободный. Яз. рус. (дата обращения 7.11.2014).
8. Попов Н.Ф., Линьков А.Н., Кураченкова Н.Б., Байчаров Н.В. Идентификация лиц по фонограммам русской речи на автоматизированной системе "Диалект". М.: Войсковая часть 34435, 1996. 102 c.
9. Rose P. Speaker verification under realistic forensic conditions // Proc. 6th Australian Int. Conf. on Speech Science and Technology. Adelaide, South Australia, 1996. P. 109–114.
10. Hollien H. Forensic Voice Identification. New York: Academic Press, 2001. 240 p.
11. Ladefoged P. Preliminaries to Linguistic Phonetics. Chicago: University of Chicago Press, 1971. 122 p.
12. Tomashenko N., Khokhlov Y. Fast algorithm for automatic alignment of speech and imperfect text data // Lecture Notes in Computer Science. 2013. V. 8113 LNAI. P. 146–153. doi: 10.1007/978-3-319-01931-4_20
13. Young S., Kershaw D., Odel J., Ollason D., Valtchev V., Woodland P. The HTK Book. Cambridge University Engineering Department, 2002. 271 p.
14. Schwarz P. Phoneme Recognition Based on Long Temporal Context. Ph.D. thesis. Brno University of Technology, 2008. 75 p.
15. Chernykh G., Korenevsky M., Levin K., Ponomareva I., Tomashenko N. State level control for acoustic model training // Lecture Notes in Computer Science. 2014. V. 8773. P. 435–442.
16. Черных Г.А., Кореневский М.Л., Левин К.Е., Пономарева И.А., Томашенко Н.А. Кроссвалидацион- ный контроль состояний при обучении акустических моделей систем автоматического распознавания речи // Изв. вузов. Приборостроение. 2014. Т. 57. № 2. С. 23–28.
17. Moreno P., Joerg C., Van Thong J.-M, Glickman O. A recursive algorithm for the forced alignment of very long audio segments // Proc. Int. Conf. on Spoken Language Processing (ICSLP 1998). Sydney, Australia, 1998. P. 2711–2714. .В. Булгакова, А.В. Шолохов, Н.А. Томашенко Научно-технический вестник информационных технологий, механики и оптики, 2015, том 15, № 1 77
18. Khokhlov Y., Tomashenko N. Speech recognition performance evaluation for LVCSR system // Proc. 14th Int. Conf. on Speech and Computer (SPECOM 2011). Kazan', Russia, 2011. P. 129–135. 19. Fawcett T. An introduction to ROC analysis // Pattern Recognition Letters. 2006. V. 27. N 8. P. 861–874. doi: 10.1016/j.patrec.2005.10.010