Исследование эффективности шумоподавления при кодировании речевого сигнала без потерь

Тамилсельван Акилан , Раджа Лакшми, Харихаран Удхаякумар

doi:10.17586/2226-1494-2022-22-2-254-261

2022 , ТОМ 22, НОМЕР 2 ( март-апрель )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2022-22-2-254-261

УДК 004.04

Исследование эффективности шумоподавления при кодировании речевого сигнала без потерь

Акилан Т., Раджа Л., Харихаран У.

Читать статью полностью

Язык статьи - английский

Ссылка для цитирования:

Акилан Т., Раджа Л., Харихаран У. Исследование эффективности шумоподавления при кодировании речевого сигнала без потерь // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 2. С. 254–261 (на англ. яз.) doi: 10.17586/2226-1494-2022-22-2-254-261

Аннотация

Кодирование речи — один из методов представления цифрового речевого сигнала с использованием малого числа битов, при этом возможно сохранить их качество и точность. В большинстве ситуаций шифрование и качество речи играют решающую роль в различных акустических системах кодирования. Предложен способ уменьшения занимаемой памяти, используемой речевыми данными с применением поддиапазона и алгоритма Хаффмана для речевых сигналов. Выделены значения амплитуды речевого сигнала после предварительной обработки, оконной обработки и применения методов декомпозиции. Полученные данные преобразованы в частотную область с использованием дискретного косинусного преобразования (Discrete Cosine Transform, DCT). Проведено кодирование методами Хаффмана 90 основных коэффициентов, содержащих наибольшее количество информации о речевых сигналах. Для восстановления исходной речи закодированный сигнал повторно преобразован в форму во временной области с применением обратного дискретного косинусного преобразования (Inverse Discrete Cosine Transform, IDCT). Выполнен эксперимент с речевыми данными с 16 битами по выборке на частоте 8 кГц. Величина показателя SNR (отношение сигнал/шум) показывает эффективность предлагаемого метода.

Ключевые слова: декомпозиция, дискретное косинусное преобразование, DCT, обратное дискретное косинусное преобразование, IDCT, алгоритм Хаффмана, SNR, поддиапазон, квантование, оконное преобразование

Список литературы

Lv S., Hu Y., Zhang S., Xie L. DCCRN+: channel-wise subband DCCRN with SNR estimation for speech enhancement // Proc. of the 22^ndAnnual Conference of the International Speech Communication Association (INTERSPEECH). 2021. P. 2816–2820. https://doi.org/10.21437/Interspeech.2021-1482
Taujuddin N.S.A.M., Ibrahim R., Sari S. Image compression using a new adaptive standard deviation thresholding estimation at the wavelet details subbands // Proc. of the 2^nd International Conference on Computing Technology and Information Management (ICCTIM). 2015. P. 109–114. https://doi.org/10.1109/ICCTIM.2015.7224602
Pal R. Speech compression with wavelet transform and huffman coding // Proc. of the 4^th International Conference on Communication, Information and Computing Technology (ICCICT). 2021. P. 1–4. https://doi.org/10.1109/ICCICT50803.2021.9510116
Li S., Zheng Z., Dai W., Xiong H. Lossy image compression with filter bank based convolutional networks // Proc. of the Data Compression Conference (DCC). 2019. P. 23–32. https://doi.org/10.1109/DCC.2019.00010
Cooper C., Marcellin M. Lossless wideband RF compression via lifting-based IIR subband decomposition // IEEE Transactions on Aerospace and Electronic Systems. 2020. V. 56. N 1. P. 823–829. https://doi.org/10.1109/TAES.2019.2919436
Vatsa S., Dr. Sahu O.P. Speech compression using discrete wavelet transform and discrete cosine transform // International Journal of Engineering Research & Technology (IJERT). 2012. V. 1. N 5. P. 1–6.
Balaji V.R., Subramanian S. A novel speech enhancement approach based on modified DCT and improved pitch synchronous analysis // American Journal of Applied Sciences. 2014. V. 11. N 1. P. 24–37. https://doi.org/10.3844/ajassp.2014.24.37
Vats S., Rathee G. An image-compression decomposition analysis of sub-bands using threshold implementation // Proc. of the 3^rd International Conference on Image Information Processing (ICIIP). 2015. P. 366–369. https://doi.org/10.1109/ICIIP.2015.7414797
Luneau J.-M., Lebrun J., Jensen S.H. Complex wavelet modulation subbands for speech compression // Proc. of the Data Compression Conference (DCC). 2009. P. 457. https://doi.org/10.1109/DCC.2009.52
Mack W., Habets E.A.P. Deep filtering: Signal extraction and reconstruction using complex time-frequency filters // IEEE Signal Processing Letters. 2020. V. 27. P. 61–65. https://doi.org/10.1109/LSP.2019.2955818

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License