Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2022-22-4-708-715
УДК 004.523
Применение FN-корректора с целью повышения качества классификации аудиособытий
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Голубков А.М., Шуранов Е.В. Применение FN-корректора с целью повышения качества классификации аудиособытий // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22, № 4. С. 708–715. doi: 10.17586/2226-1494-2022-22-4-708-715
Аннотация
Предмет исследования. Рассмотрена проблема классификации акустических событий, активно применяемых в решениях задач безопасного города, умного дома, IoT устройств, а также для детектирования опасных ситуаций на производстве. Предложено решение повышения точности классификаторов без изменения их структуры и сбора дополнительных данных. Основным источником данных для экспериментов выбран открытый набор данных TUT Urban Acoustic Scenes 2018, Development Dataset. Метод. Предложен способ увеличения точности классификации аудиособытий с помощью использования FN-корректора. FN-корректор представляет собой линейный классификатор и работает в два этапа: преобразование пространства признаков в линейно-разделимое пространство и линейное отделение одного класса от другого. В случае применения корректора классы — типы ответов исходного классификатора: положительный (P), отрицательный (N), ложноположительный (FP) и ложноотрицательный (FN). В результате возможно обучить два типа корректоров FP и FN, которые работают как бинарные линейные классификаторы и разделяют ответы на положительные/ ложноположительные и отрицательные/ложноотрицательные соответственно. Выполнены эксперименты, где в качестве исходного классификатора использована сверточная нейронная сеть VGGish. Аудиосигнал преобразован в спектрограмму и передан на вход нейронной сети, которая формирует признаковое описание спектрограммы и производит классификацию. Основные результаты. В качестве примера демонстрации повышения точности классификации выбраны два «спутанных» класса. С помощью признакового описания аудиозаписей этих классов построен, обучен FN-корректор и подключен к исходному классификатору. Ответ от классификатора, а также признаковое описание передано на вход корректора. Далее корректор переводит пространство признаков в новый базис (в линейно разделимое пространство) и классифицирует ответ классификатора, таким образом «отвечает» на вопрос, ошибается ли исходный классификатор на таком векторе признаков или нет. Если исходный классификатор ошибся, то его ответ изменяется корректором на противоположный. Если нет — ответ остается тем же самым. Результаты экспериментов продемонстрировали снижение уровня спутывания классов и, соответственно, увеличение точности исходного классификатора без изменения его структуры и без сбора дополнительного набора данных. Практическая значимость. Полученные результаты могут быть использованы на устройствах IoT, имеющих существенные ограничения по размеру используемых моделей, а также при решении проблем доменной адаптации, актуальной в задачах аудиоаналитики.
Ключевые слова: классификация аудособытий, обработка звука, FN-корректор, корректор ложноотрицательных ответов, сверточные сети, аудиоаналитика
Благодарности. Работа выполнена в рамках исследований, поддерживаемых СПбГЭТУ «ЛЭТИ» им В.И. Ульянова (Ленина).
Список литературы
Благодарности. Работа выполнена в рамках исследований, поддерживаемых СПбГЭТУ «ЛЭТИ» им В.И. Ульянова (Ленина).
Список литературы
-
Grollmisch S., Cano E., Kehling C., Taenzer M. Analyzing the potential of pre-trained embeddings for audio classification tasks // Proc. of the28th European Signal Processing Conference (EUSIPCO). 2021. P. 790–794. https://doi.org/10.23919/Eusipco47968.2020.9287743
-
Matveev Y.N., Shuranov E.V., Avdeeva A.S., Shc0
-
hemelinin V.L., Krylova E.V. Acoustic data based automatic object detection system// Proc. of the 2nd International Conference on Control in Technical Systems (CTS). 2017. P. 301–303. https://doi.org/10.119/CTSYS.2017.8109551
-
ГолубковА.М. Бинарная классификация изображений на примере задачи распознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2018. № 7. С. 26–30.
-
Голубков А.М., Клионский Д.М. Применение метода каскадной редукции к решению задачи распознавания лиц // Известия СПбГЭТУ «ЛЭТИ». 2019.№ 8. С. 47–53.
-
Ono N., Miyamoto K., Le Roux J., Kameoka H., Sagayama S. Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram // Proc. of the 16th European Signal Processing Conference (EUSIPCO). 2008. P. 1–4.
-
Sutskever I., Martens J., Dahl G., Hinton G. On the importance of initialization and momentum in deep learning // Proc. of the 30th International Conference on Machine Learning (ICML). 2013. P. 2176–2184.
-
Gorban A., Golubkov A.M., Grechuk B., Mirkes E., Tyukin I.Y. Correction of AI systems by linear discriminants: probabilistic foundations // Information Sciences. 2018. V. 466.P. 303–322. https://doi.org/10.1016/j.ins.2018.07.040