Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей

Уздяев Михаил Юрьевич , Карпов Алексей Анатольевич

doi:10.17586/2226-1494-2024-24-5-834-842

2024 , ТОМ 24, НОМЕР 5 ( сентябрь-октябрь )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2024-24-5-834-842

УДК 004.4/.5

Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей

Уздяев М.Ю., Карпов А.А.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования:

Уздяев М.Ю., Карпов А.А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 834–842. doi: 10.17586/2226-1494-2024-24-5-834-842

Аннотация

Введение. Развитие цифровых систем коммуникации сопряжено с растущим количеством проявлений деструктивного поведения людей и необходимостью оперативного на него реагирования. Ввиду слабой формализации предметной области агрессии, наиболее перспективными методами распознавания деструктивного поведения являются методы, основанные на подходах машинного обучения, которые для эффективной работы требуют репрезентативных выборок релевантных данных. При создании корпусов поведенческих данных необходимо решить следующие проблемы: соответствие разметки данных корпуса реальному поведению; представленности поведения в однотипных ситуациях и в корпусе натурального поведения. Целью работы является разработка методики создания выборки многомодальных данных поведенческой агрессии человека, содержательно отражающей агрессию как явление и обеспечивающей релевантность данных. Метод. В работе описывается разработанная методика создания выборок многомодальных данных, содержащих спонтанное агрессивное поведение. В ходе содержательного анализа предметной области агрессивного поведения человека выделяются значимые атрибуты агрессии такие как явления (наличие субъекта и объекта агрессии, деструктивный характер агрессивного действия) и единицы анализа поведения (временные сегменты аудио и видео, на которых локализованы информанты); определяются типы регистрируемой агрессии (физическая и вербальная явные прямые); обосновываются критерии оценки агрессивного поведения каждого типа посредством введения перечня действий, однозначно определяющих каждый вид агрессии. Методика состоит из следующих этапов: сбор видео в открытом доступе в сети Интернет; выделение временных интервалов, на которых проявляется агрессия; локализация информантов на кадрах видео; транскрибирование реплик информантов; оценка актов физической и вербальной агрессии группой аннотаторов посредством разработанного алгоритма оценки поведения; вычисление согласованности оценок с помощью коэффициента Флейсса. Основные результаты. Для апробации методики создан и размечен группой аннотаторов аудиовизуальный корпус данных спонтанного агрессивного поведения русскоязычных информантов Audiovisual Aggressive Behavior in Online Streams (AVABOS). Корпус данных содержит видео- и аудиосегменты, на которых присутствует вербальная и физическая агрессии соответственно, проявляемые русскоязычными информантами в ходе онлайн-видеотрансляций. Обсуждение. Результаты согласованности разметки показали высокий уровень для физической агрессии (κ = 0,74) и средний уровень для вербальной (κ = 0,48), что подтверждает обоснованность разработанной методики. Корпус данных AVABOS может использоваться для решения задач автоматического распознавания агрессии человека. Помимо создания корпусов агрессивного поведения, методика также может использоваться для создания корпусов, содержащих другое поведение.

Ключевые слова: методика создания многомодального корпуса, методика оценки поведения, агрессивное поведение, распознавание агрессии, создание выборки данных, оценка согласованности разметки, коэффициент Флейсса

Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (№ 22-11-00321, https://www. rscf.ru/project/22-11-00321/).

Список литературы

Lefter I., Rothkrantz L.J.M., Burghouts G.J. A comparative study on automatic audio–visual fusion for aggression detection using meta-information // Pattern Recognition Letters. 2013. V. 34. N 15. P. 1953–1963. https://doi.org/10.1016/j.patrec.2013.01.002
Lefter I., Burghouts G.J., Rothkrantz L.J.M. An audio-visual dataset of human–human interactions in stressful situations // Journal on Multimodal User Interfaces. 2014. V. 8. N 1. P. 29–41. https://doi.org/10.1007/s12193-014-0150-7
Lefter I., Jonker C.M., Tuente S.K., Veling W., Bogaerts S. NAA: A multimodal database of negative affect and aggression // Proc. of the Seventh International Conference on Affective Computing and Intelligent Interaction (ACII). 2017. P. 21–27. https://doi.org/10.1109/ACII.2017.8273574
Sernani P., Falcionelli N., Tomassini S., Contardo P., Dragoni A.F. Deep learning for automatic violence detection: Tests on the AIRTLab dataset // IEEE Access. 2021. V. 9. P. 160580–160595. https://doi.org/10.1109/ACCESS.2021.3131315
Ciampi L., Foszner P., Messina N., Staniszewski M., Gennaro C., Falchi F., Serao G., Cogiel M., Golba D., Szczęsna A., Amato G. Bus violence: An open benchmark for video violence detection on public transport // Sensors. 2022. V. 22. N 21. P. 8345. https://doi.org/10.3390/s22218345
Perez M., Kot A.C., Rocha A. Detection of real-world fights in surveillance videos // Proc. of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 2662–2666. https://doi.org/10.1109/ICASSP.2019.8683676
Cheng M., Cai K., Li M. RWF-2000: An open large scale video database for violence detection // Proc. of the 25^th International Conference on Pattern Recognition (ICPR). 2021. P. 4183–4190. https://doi.org/10.1109/ICPR48806.2021.9412502
Potapova R., Komalova L.On principles of annotated databases of the semantic field “aggression” // Lecture Notes in Computer Science. 2014. V. 8773. P. 322–328. https://doi.org/10.1007/978-3-319-11581-8_40
Апанасович К.С., Махныткина О.В., Кабаров В.И., Далевская О.П. RuPersonaChat: корпус диалогов для персонификации разговорных агентов // Научно-технический вестник информационныхтехнологий, механики и оптики. 2024. Т. 24. № 2. С. 214–221. https://doi.org/10.17586/2226-1494-2024-24-2-214-221
Hassoun Al-Jawad M.M., Alharbi H., Almukhtar A.F., Alnawas A.A. Constructing twitter corpus of IraqiArabic Dialect (CIAD) for sentiment analysis// Научно-техническийвестник информационных технологий, механики и оптики. 2022. Т. 22.№ 2. С. 308–316. https://doi.org/10.17586/2226-1494-2022-22-2-308-316
Busso C., Bulut M., Lee C., Kazemzadeh A., Mower E., Kim S., Chang J.N., Lee S., Narayanan S.S.IEMOCAP: Interactive emotional dyadic motion capture database // Language Resources and Evaluation. 2008. V. 42. N 4. P. 335–359. https://doi.org/10.1007/s10579-008-9076-6
Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing // Lecture Notes in Computer Science. 2018. V. 11096. P. 501–510. https://doi.org/10.1007/978-3-319-99579-3_52
Ringeval F., Sonderegger A., Sauer J., Lalanne D.Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // Proc. of the 10^th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. https://doi.org/10.1109/FG.2013.6553805
Busso C., Parthasarathy S., Burmania A., AbdelWahab M., Sadoughi N., Provost E.M.MSP-IMPROV: An acted corpus of dyadic interactions to study emotion perception // IEEE Transactions on Affective Computing. 2017. V. 8. N 1. P. 67–80. https://doi.org/10.1109/TAFFC.2016.2515617
Ениколопов С.Н.Понятие агрессии в современной психологии // Прикладная психология. 2001.№ 1. С. 60–72.
Groth-MarnatG., WrightA.J. Handbookof Psychological Assessment. John Wiley & Sons, 2016. 824 p.
Uzdiaev M., Vatamaniuk I.Investigation of manifestations of aggressive behavior by users of sociocyberphysical systems on video // Lecture Notes in Networks and Systems. 2021. V. 231. P. 593–604. https://doi.org/10.1007/978-3-030-90321-3_49
Buss A.H. The Psychology of Aggression. John Wiley & Sons, 1961. 307 p. https://doi.org/10.1037/11160-000
Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // International conference on machine learning (PMLR). 2023. V. 202. P. 28492–28518.
Plaquet A., Bredin H. Powerset multi-class cross entropy loss for neural speaker diarization // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. P. 3222–3226. https://doi.org/10.21437/Interspeech.2023-205
Lausberg H., Sloetjes H. Coding gestural behavior with the NEUROGES-ELAN system // Behavior Research Methods. 2009. V. 41. N 3. P. 841–849. https://doi.org/10.3758/BRM.41.3.841
Fleiss J.L. Measuring nominal scale agreement among many raters // Psychological Bulletin. 1971. V. 76. N 5. P. 378–382. https://doi.org/10.1037/h0031619
Уздяев М.Ю., Карпов А.А. Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Свидетельство о государственной регистрации базы данных № 2022623239. 2022.
Landis J.R., Koch G.G. The measurement of observer agreement for categorical data // Biometrics. 1977. V. 33. N 1. P. 159–174. https://doi.org/10.2307/2529310
Fleiss J.L., Levin B., Paik M.C. Statistical Methods for Rates and Proportions. John Wiley & Sons, 2013. 800 p.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License