Применение FN-корректора с целью повышения качества классификации аудиособытий

Голубков Александр Михайлович, Шуранов Евгений Витальевич

doi:10.17586/2226-1494-2022-22-4-708-715

2022 , ТОМ 22, НОМЕР 4 ( июль-август )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2022-22-4-708-715

УДК 004.523

Применение FN-корректора с целью повышения качества классификации аудиособытий

Голубков А.М., Шуранов Е.В.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Голубков А.М., Шуранов Е.В. Применение FN-корректора с целью повышения качества классификации аудиособытий // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 4. С. 708–715. doi: 10.17586/2226-1494-2022-22-4-708-715

Аннотация

Предмет исследования. Рассмотрена проблема классификации акустических событий, активно применяемых в решениях задач безопасного города, умного дома, IoT устройств, а также для детектирования опасных ситуаций на производстве. Предложено решение повышения точности классификаторов без изменения их структуры и сбора дополнительных данных. Основным источником данных для экспериментов выбран открытый набор данных TUT Urban Acoustic Scenes 2018, Development Dataset. Метод. Предложен способ увеличения точности классификации аудиособытий с помощью использования FN-корректора. FN-корректор представляет собой линейный классификатор и работает в два этапа: преобразование пространства признаков в линейно-разделимое пространство и линейное отделение одного класса от другого. В случае применения корректора классы — типы ответов исходного классификатора: положительный (P), отрицательный (N), ложноположительный (FP) и ложноотрицательный (FN). В результате возможно обучить два типа корректоров FP и FN, которые работают как бинарные линейные классификаторы и разделяют ответы на положительные/ ложноположительные и отрицательные/ложноотрицательные соответственно. Выполнены эксперименты, где в качестве исходного классификатора использована сверточная нейронная сеть VGGish. Аудиосигнал преобразован в спектрограмму и передан на вход нейронной сети, которая формирует признаковое описание спектрограммы и производит классификацию. Основные результаты. В качестве примера демонстрации повышения точности классификации выбраны два «спутанных» класса. С помощью признакового описания аудиозаписей этих классов построен, обучен FN-корректор и подключен к исходному классификатору. Ответ от классификатора, а также признаковое описание передано на вход корректора. Далее корректор переводит пространство признаков в новый базис (в линейно разделимое пространство) и классифицирует ответ классификатора, таким образом «отвечает» на вопрос, ошибается ли исходный классификатор на таком векторе признаков или нет. Если исходный классификатор ошибся, то его ответ изменяется корректором на противоположный. Если нет — ответ остается тем же самым. Результаты экспериментов продемонстрировали снижение уровня спутывания классов и, соответственно, увеличение точности исходного классификатора без изменения его структуры и без сбора дополнительного набора данных. Практическая значимость. Полученные результаты могут быть использованы на устройствах IoT, имеющих существенные ограничения по размеру используемых моделей, а также при решении проблем доменной адаптации, актуальной в задачах аудиоаналитики.

Ключевые слова: классификация аудособытий, обработка звука, FN-корректор, корректор ложноотрицательных ответов, сверточные сети, аудиоаналитика

Благодарности. Работа выполнена в рамках исследований, поддерживаемых СПбГЭТУ «ЛЭТИ» им В.И. Ульянова (Ленина).

Список литературы

Grollmisch S., Cano E., Kehling C., Taenzer M. Analyzing the potential of pre-trained embeddings for audio classification tasks // Proc. of the28^th European Signal Processing Conference (EUSIPCO). 2021. P. 790–794. https://doi.org/10.23919/Eusipco47968.2020.9287743
Matveev Y.N., Shuranov E.V., Avdeeva A.S., Shc0
hemelinin V.L., Krylova E.V. Acoustic data based automatic object detection system// Proc. of the 2^nd International Conference on Control in Technical Systems (CTS). 2017. P. 301–303. https://doi.org/10.119/CTSYS.2017.8109551
ГолубковА.М. Бинарная классификация изображений на примере задачи распознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2018. № 7. С. 26–30.
Голубков А.М., Клионский Д.М. Применение метода каскадной редукции к решению задачи распознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2019.№ 8. С. 47–53.
Ono N., Miyamoto K., Le Roux J., Kameoka H., Sagayama S. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram // Proc. of the 16^th European Signal Processing Conference (EUSIPCO). 2008. P. 1–4.
Sutskever I., Martens J., Dahl G., Hinton G. On the importance of initialization and momentum in deep learning // Proc. of the 30^th International Conference on Machine Learning (ICML). 2013. P. 2176–2184.
Gorban A., Golubkov A.M., Grechuk B., Mirkes E., Tyukin I.Y. Correction of AI systems by linear discriminants: probabilistic foundations // Information Sciences. 2018. V. 466.P. 303–322. https://doi.org/10.1016/j.ins.2018.07.040

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License