DOI: 10.17586/2226-1494-2019-19-5-951-954


УДК004.934.5

АКУСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ДЛЯ СИНТЕЗА КАЗАХСКОЙ РЕЧИ

Калиев А.К., Рыбин С.В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:

Калиев А.К., Рыбин С.В. Акустическое моделирование для снтеза казахской речи // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 5. С. 951–954. doi: 10.17586/2226-1494-2019-19-5-951-954



Аннотация

Представлена новая конструкция генеративно-состязательной сети для обучения акустической модели синтеза речи. Предлагаемая конструкция состоит из генератора и двух дискриминаторов, где генератор предсказывает акустические параметры из лингвистического представления. Обучение и тестирование производились на корпусе казахского языка, который состоял из 5,6 ч записи речи. По результатам экспериментов была получена 3,46 средняя экспертная оценка, что говорит о достаточно приемлемом качестве синтезе речи. Данный подход может быть применим при создании технологий синтеза речи для других языков.


Ключевые слова: акустическая модель, синтез речи, казахский язык, генеративно-состязательная сеть (ГСС), речевой корпус

Благодарности. Исследования выполнены за счет стартового финансирования Университета ИТМО в рамках НИР № 618278 «Синтез эмоциональной речи на основе генеративных состязательных сетей».

Список литературы
1. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // Proc. IEEE International Conference on Acoustics, Speech and Signal Processing. ICASSP. 2013. P. 7962–7966. doi: 10.1109/ICASSP.2013.6639215
2. Saito Y., Takamichi S., Saruwatari H. Statistical parametric speech synthesis incorporating generative adversarial networks // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2017. V. 26. N 1. P. 84–96. doi: 10.1109/ TASLP.2017.2761547
3. Khomitsevich O., Mendelev V., Tomashenko N., Rybin S., Medennikov I., Kudubayeva S. A bilingual Kazakh-Russian system for automatic speech recognition and synthesis // Lecture Notes in Computer Science. 2015. V. 9319. P. 25–33. doi: 10.1007/978-3-319-23132-7_3
4. Kaliyev A., Rybin S.V., Matveev Y. The pausing method based on brown clustering and word embedding // Lecture Notes in Computer Science. 2017. V. 10458. P. 741–747. doi: 10.1007/978-3-319-66429-3_74
5. Kaliyev A., Rybin S.V., Matveev Yu.N., Kaziyeva N., Burambayeva N. Modeling pause for the synthesis of Kazakh speech // Proc. 4th International Conference on Engineering and MIS, ICEMIS. 2018. P. 1–4. doi: 10.1145/3234698.3234699
6. Kaliyev A., Rybin S.V., Matveev Y.N. Phoneme duration prediction for Kazakh language // Lecture Notes in Computer Science. 2018. V. 11096. P. 274–280. doi: 10.1007/978-3-319-99579-3_29
7. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications // IEICE Transactions on Information and Systems. 2016. V. E99-D. N 7. P. 1877–1884. doi: 10.1587/transinf.2015EDP7457
8. Карпов А.А., Верходанова В.О. Речевые технологии для малоресурсных языков мира // Вопросы языкознания. 2015. № 2. С. 117–135.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика