УДК 519.688

ТЕХНОЛОГИЯ СИНТЕЗА ЕСТЕСТВЕННОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ БАЗЫ ДАННЫХ НЕБОЛЬШОГО ОБЪЕМА

Чистиков П.Г., Таланов А.О., Захаров Д.С., Соломенник А.И.


Читать статью полностью 

Аннотация

Представлен подход к созданию голоса для системы синтеза естественной речи в условиях малого объема исходного речевого материала. Эффективное решение данной проблемы необходимо для задачи восстановления голоса (синтез потерянных фрагментов записи на основе доступного материала известного диктора, например актера). Представленная система синтеза речи является гибридной, так как комбинирует достоинства систем, основанных на скрытых марковских моделях и методе Unit Selection. Подход, описанный в работе, использует статистические модели интонационных параметров, что позволяет сохранять в синтезированной речи особенности произношения диктора. Описан процесс подготовки базы данных для синтеза, в том числе и решение проблемы нехватки исходного речевого материала для обучения модели. Специальные алгоритмы конкатенации и модификации звуковых элементов помогают корректировать их параметры в соответствии с требованиями, обеспечивают общую тональную гладкость и уменьшают искажения в спектральной области на границах объединяемых фрагментов. Аудитивные тесты показали эффективность предложенных решений и доказали, что синтез естественной речи возможен даже в условиях малой речевой базы (вплоть до одного часа речи).


Ключевые слова: синтез речи, восстановление голоса, скрытые марковские модели, метод Unit Selection, модификация речи

Список литературы
1.     Breuer S., Bergmann S., Dragon R., Möller S. Set-up of a unit-selection synthesis with a prominent voice // Proc. 5th International conference on Language Resources and Evaluation. Genoa, 2006. P. 293–296.
2.     Matoušek J., Tihelka D., Šmídl L. On the impact of annotation errors on unit-selection speech synthesis // Lecture Notes in Computer Science. 2012. V. 7499. P. 456–463.
3.     Yamagishi J., Zen H., Toda T., Tokuda K. Speaker-independent HMM-based speech synthesis system – HTS-2007 system for the blizzard challenge 2007 // Proc. Blizzard Challenge-2007. Bonn, Germany, 2007. P. 1–6.
4.     Hunt A.J., Black A.W. Unit selection in a concatenative speech synthesis using a large speech database // Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 96. Atlanta, USA, 1996. V. 1. P. 373–376.
5.     Phung T.-N., Mai C.L., Akagi M. A concatenative speech synthesis for monosyllabic languages with limited data // Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012. Hollywood, US, 2012. P. 1–10.
6.     Meng F., Wu Z., Meng H., Jia J., Cai L. Hierarchical english emphatic speech synthesis based on HMM with limited training data // Proc. 13th Annual Conference of the International Speech Communication Association, InterSpeech 2012. Portland, US, 2012. V. 1. P. 466–469.
7.     Tsuzuki R., Zen H., Tokuda K., Kitamura T., Bulut M., Narayanan S. Constructing emotional speech synthesizers with limited speech database // Proc. INTERSPEECH 2004-ICSLP. Jeju Island, Korea, 2004. P. 1185–1188.
8.     Phung T. N., Luong M. C., Akagi M. A hybrid TTS between unit selection and HMM-based TTS under limited data conditions // Proc. 8th ISCA Speech Synthesis Workshop. Barcelona, Spain, 2013. P. 279–284.
9.     Chistikov P.G., Korolkov E.A., Talanov A.O. Combining HMM and unit selection technologies to increase naturalness of synthesized speech // Компьютернаялингвистикаиинтеллектуальныетехнологии. 2013. № 12-2. C. 2–10.
10.  Чистиков П.Г., Корольков Е.А., Таланов А.О., Соломенник А.И. Гибридная технология синтеза речи на основе скрытых марковских моделей и алгоритма Unit Selection // Изв. вузов. Приборостроение. 2013. Т. 56. № 2. C. 33–38.
11.  Соломенник А.И., Таланов А.О., Соломенник М.В., Хомицевич О.Г., Чистиков П.Г. Оценки качества синтезированной речи: проблемы и решения // Изв. вузов. Приборостроение. 2013. Т. 56. № 2. C. 38–42.
12.  Чистиков П.Г., Хомицевич О.Г., Рыбин С.В. Статистические методы автоматического определения мест и длительности пауз в системах синтеза речи // Изв. вузов. Приборостроение. 2014. Т. 57. № 2. С. 28–32.
13.  Chistikov P.G., Korolkov E.A. Data-driven speech parameter generation for Russian text-to-speech system // Компьютернаялингвистикаиинтеллектуальныетехнологии. 2012. № 11. C. 103–111.
14.  Chistikov P., Khomitsevich O. Improving prosodic break detection in a Russian TTS system // Proc. of the 15th International Conference on Speech and Computer, SPECOM 2013. Pilsen, Czech Republic, 2013. V. 8113. P. 181–188.
15.  Zen H., Tokuda K., Masuko T., Kobayashi T., Kitamura T. A hidden semi-Markov model-based speech synthesis // IEICE Transactions on Information and Systems. 2007. V. E90-D. P. 825–834.
16.  Yamagishi J., Kobayashi T. Adaptive training for hidden semi-Markov model // Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP'05. Philadelphia, US, 2005. V. 1. Art. N 1415126. P. I365–I368.
17.  Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. 626 p.
18.  ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. Введ. 01.01.1997. М: Издательство стандартов, 1996. 234 с.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика