doi: 10.17586/2226-1494-2026-26-2-295-305


УДК 004.032.26

Спектральные многополосные рекуррентные нейронные сети для моделирования компрессоров динамического диапазона методом «черного ящика» (на англ.яз.)

Балыкин А.Ф., Блеканов И.С.


Читать статью полностью 
Язык статьи - английский

Ссылка для цитирования:
Балыкин А.Ф., Блеканов И.С. Спектральные многополосные рекуррентные нейронные сети для моделирования компрессоров динамического диапазона методом «черного ящика» // Научно-технический вестник информационных технологий, механики и оптики. 2026. Т. 26, № 2. С. 295–305 (на англ. яз.). doi: 10.17586/2226-1494-2026-26-2-295-305


Аннотация
Введение. Подходы глубокого обучения все активнее применяются для задач виртуального аналогового моделирования, цель которых заключается в воспроизведении звуковых характеристик аналоговых аудиоустройств. В области моделирования аналоговых компрессоров динамического диапазона многие существующие методы работают с аудиосигналами во временной области, что обуславливает высокую размерность входного сигнала при высокой частоте дискретизации. Обработка таких высокодетализированных признаков является вычислительно затратной и снижает эффективность моделей. Метод. Представлен метод предварительной обработки признаков, использующий амплитудную компоненту кратковременного преобразования Фурье в сочетании с механизмом спектрального усиления, функционирующим аналогично спектральной маске, но способным как ослаблять, так и усиливать частотные компоненты. В качестве рассматриваемых архитектур были предложены многополосные сети Long Short-Term Memory (LSTM) и Gated Recurrent Unit (GRU), которые разделяют амплитудный спектр на несколько частотных полос для независимой обработки, что существенно снижает вычислительную сложность при сохранении высокой точности моделирования. Основные результаты. Для оценки представленного подхода были сформированы два набора данных, содержащих записи с аналогового компрессора Alesis 3630 и его цифровой эмуляции discoDSP NightShine. На выбранных наборах данных были проведены эксперименты, в которых предложенный метод сравнивался с базовыми моделями по четырем объективным метрикам, теоретическим и эмпирическим показателям вычислительной производительности, а также результатам субъективного прослушивания. Обсуждение. Результаты показали, что однополосные модели с использованием разработанного метода извлечения признаков превосходят базовые модели по всем оценочным метрикам. Многополосные конфигурации обеспечивают более выгодный баланс между качеством и вычислительной эффективностью. В частности, четырехполосные архитектуры LSTM и GRU демонстрируют более высокую перцептивную точность при существенно меньших вычислительных затратах. Кроме того, был проведен субъективный тест прослушивания, результаты которого согласуются с объективными метриками. Исходный код и предобученные модели опубликованы в открытом доступе для обеспечения воспроизводимости результатов.

Ключевые слова: обработка сигналов, глубокое обучение, виртуальное аналоговое моделирование, метод черного ящика, рекуррентные нейронные сети

Список литературы
1. Wilmering T., Moffat D., Milo A., Sandler M. A history of audio effects // Applied Sciences. 2020. V. 10.N 3. P. 791. https://doi.org/10.3390/app10030791
2. Montenegro J. Design of an audio compressor with digital control // TECCIENCIA. 2021. V. 16. N 30. P. 51–64. https://doi.org/10.18180/tecciencia.2021.30.4
3. Välimäki V., Reiss J. All about audio equalization: solutions and frontiers // Applied Sciences. 2016. V. 6. N 5. P. 129. https://doi.org/10.3390/app6050129
4. Réveillac J.-M. Musical Sound Effects: Analog and Digital Sound Processing. Wiley-ISTE, 2017. 558 p.
5. Chowdhury J. A comparison of virtual analog modelling techniques for desktop and embedded implementations // arXiv. 2020. arXiv:2009.02833. https://doi.org/10.48550/arXiv.2009.02833
6. Purwins H., Li B., Virtanen T., Schlüter J., Chang S.-Y., Sainath T. Deep learning for audio signal processing // IEEE Journal of Selected Topics in Signal Processing. 2019. V. 13. N 2. P. 206–219. https://doi.org/10.1109/jstsp.2019.2908700
7. Liu X., Sahidullah M., Kinnunen T. A comparative re-assessment of feature extractors for deep speaker embeddings // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2020. P. 3221–3225. https://doi.org/10.21437/interspeech.2020-1765
8. Sun Y., Yang L., Zhu H., Hao J. Funnel deep complex U-Net for phase-aware speech enhancement // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2021. P. 161–165. https://doi.org/10.21437/Interspeech.2021-10
9. Kong J., Kim J., Bae J. HiFi-GAN: Generative adversarial networks for efficient and high fidelity speech synthesis // Proc. of the 34th International Conference on Neural Information Processing Systems. 2020. P. 17022–17033.
10. Zölzer U. DAFX: Digital Audio Effects. Wiley, 2011. 624 p.
11. Kates J.M. Principles of digital dynamic-range compression // Trends in Amplification. 2005. V. 9. N 2. P. 45–76. https://doi.org/10.1177/108471380500900202
12. Giannoulis D., Massberg M., Reiss J.D. Digital dynamic range compressor design—A tutorial and analysis // Journal of the Audio Engineering Society. 2012. V. 60. N 6. P. 399–408.
13. D’Angelo S. Lightweight virtual analog modeling // Proc. of the 22nd Colloquio di Informatica Musicale (CIM). 2018.
14. Eichas F., Zölzer U. Virtual analog modeling of guitar amplifiers with Wiener–Hammerstein models // Proc.of the 44th Annual Convention on Acoustics (DAGA). 2018.
15. Cheng C.M., Peng Z.K., Zhang W.M., Meng G. Volterra-series-based nonlinear system modeling and its engineering applications: A state-of-the-art review // Mechanical Systems and Signal Processing. 2017. V. 87. Part A. P. 340–364. https://doi.org/10.1016/j.ymssp.2016.10.029
16. van den Oord A., Dieleman S., Zen H., Simonyan K., Vinyals O., Graves A., et al. WaveNet: A generative model for raw audio // arXiv. 2016. arXiv:1609.03499. https://doi.org/10.48550/arXiv.1609.03499
17. Wright A., Damskägg E.-P., Välimäki V. Real-time black-box modelling with recurrent neural networks // Proc. of the 22nd International Conference on Digital Audio Effects (DAFx-19). 2019. P. 1–9.
18. Ramirez M.A.M., Benetos E., Reiss J.D. Deep learning for black-box modeling of audio effects // Applied Sciences. 2020. V. 10. N 2. P. 638. https://doi.org/10.3390/app10020638
19. Damskägg E.-P., Juvela L., Välimäki V. Real-time modeling of audio distortion circuits with deep learning // Proc. of the 16th Sound and Music Computing Conference. 2019. P. 332–339.
20. Hawley S.H., Colburn B., Mimilakis S.I. SignalTrain: profiling audio compressors with deep neural networks // arXiv. 2019. arXiv:1905.11928. https://doi.org/10.48550/arXiv.1905.11928
21. Steinmetz C.J., Reiss J.D. Efficient neural networks for real-time analog audio effect modeling // arXiv. 2021. arXiv:2102.06200. https://doi.org/10.48550/arXiv.2102.06200
22. Simionato R., Fasciani S. Fully conditioned and low-latency black-box modeling of analog compression // Proc. of the International Conference on Digital Audio Effects Dafx. 2023.
23. Yin H., Cheng G., Steinmetz C.J., Yuan R., Stern R.M., Dannenberg R.B.. Modeling analog dynamic range compressors using deep learning and state-space models // arXiv. 2024. arXiv:2403.16331. https://doi.org/10.48550/arXiv.2403.16331
24. Simionato R., Fasciani S. Modeling time-variant responses of optical compressors with selective state space models // AES Journal of the Audio Engineering Society. 2025. V. 73. N 3. P. 144–165. https://doi.org/10.17743/jaes.2022.0194
25. Fonseca E., Favory X., Pons J., Font F., Serra X. FSD50K: An open dataset of human-labeled sound events // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2022. V. 30. P. 829–852. https://doi.org/10.1109/taslp.2021.3133208
26. Yamagishi J., Veaux C., MacDonald K. CSTR VCTK corpus: English multi-speaker corpus for CSTR Voice Cloning Toolkit (version 0.92) // University of Edinburgh, Centre for Speech Technology Research (CSTR). 2019. https://doi.org/10.7488/ds/2645

 


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2026 ©
Научно-технический вестник информационных технологий, механики и оптики.

Яндекс.Метрика