doi: 10.17586/2226-1494-2024-24-5-834-842


УДК 004.4/.5

Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей

Уздяев М.Ю., Карпов А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Уздяев М.Ю., Карпов А.А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 834–842. doi: 10.17586/2226-1494-2024-24-5-834-842


Аннотация
Введение. Развитие цифровых систем коммуникации сопряжено с растущим количеством проявлений деструктивного поведения людей и необходимостью оперативного на него реагирования. Ввиду слабой формализации предметной области агрессии, наиболее перспективными методами распознавания деструктивного поведения являются методы, основанные на подходах машинного обучения, которые для эффективной работы требуют репрезентативных выборок релевантных данных. При создании корпусов поведенческих данных необходимо решить следующие проблемы: соответствие разметки данных корпуса реальному поведению; представленности поведения в однотипных ситуациях и в корпусе натурального поведения. Целью работы является разработка методики создания выборки многомодальных данных поведенческой агрессии человека, содержательно отражающей агрессию как явление и обеспечивающей релевантность данных. Метод. В работе описывается разработанная методика создания выборок многомодальных данных, содержащих спонтанное агрессивное поведение. В ходе содержательного анализа предметной области агрессивного поведения человека выделяются значимые атрибуты агрессии такие как явления (наличие субъекта и объекта агрессии, деструктивный характер агрессивного действия) и единицы анализа поведения (временные сегменты аудио и видео, на которых локализованы информанты); определяются типы регистрируемой агрессии (физическая и вербальная явные прямые); обосновываются критерии оценки агрессивного поведения каждого типа посредством введения перечня действий, однозначно определяющих каждый вид агрессии. Методика состоит из следующих этапов: сбор видео в открытом доступе в сети Интернет; выделение временных интервалов, на которых проявляется агрессия; локализация информантов на кадрах видео; транскрибирование реплик информантов; оценка актов физической и вербальной агрессии группой аннотаторов посредством разработанного алгоритма оценки поведения; вычисление согласованности оценок с помощью коэффициента Флейсса. Основные результаты. Для апробации методики создан и размечен группой аннотаторов аудиовизуальный корпус данных спонтанного агрессивного поведения русскоязычных информантов Audiovisual Aggressive Behavior in Online Streams (AVABOS). Корпус данных содержит видео- и аудиосегменты, на которых присутствует вербальная и физическая агрессии соответственно, проявляемые русскоязычными информантами в ходе онлайн-видеотрансляций. Обсуждение. Результаты согласованности разметки показали высокий уровень для физической агрессии (κ = 0,74) и средний уровень для вербальной (κ = 0,48), что подтверждает обоснованность разработанной методики. Корпус данных AVABOS может использоваться для решения задач автоматического распознавания агрессии человека. Помимо создания корпусов агрессивного поведения, методика также может использоваться для создания корпусов, содержащих другое поведение.

Ключевые слова: методика создания многомодального корпуса, методика оценки поведения, агрессивное поведение, распознавание агрессии, создание выборки данных, оценка согласованности разметки, коэффициент Флейсса

Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (№ 22-11-00321, https://www. rscf.ru/project/22-11-00321/).

Список литературы
  1. Lefter I., Rothkrantz L.J.M., Burghouts G.J. A comparative study on automatic audio–visual fusion for aggression detection using meta-information // Pattern Recognition Letters. 2013. V. 34. N 15. P. 1953–1963. https://doi.org/10.1016/j.patrec.2013.01.002
  2. Lefter I., Burghouts G.J., Rothkrantz L.J.M. An audio-visual dataset of human–human interactions in stressful situations // Journal on Multimodal User Interfaces. 2014. V. 8. N 1. P. 29–41. https://doi.org/10.1007/s12193-014-0150-7
  3. Lefter I., Jonker C.M., Tuente S.K., Veling W., Bogaerts S. NAA: A multimodal database of negative affect and aggression // Proc. of the Seventh International Conference on Affective Computing and Intelligent Interaction (ACII). 2017. P. 21–27. https://doi.org/10.1109/ACII.2017.8273574
  4. Sernani P., Falcionelli N., Tomassini S., Contardo P., Dragoni A.F. Deep learning for automatic violence detection: Tests on the AIRTLab dataset // IEEE Access. 2021. V. 9. P. 160580–160595. https://doi.org/10.1109/ACCESS.2021.3131315
  5. Ciampi L., Foszner P., Messina N., Staniszewski M., Gennaro C., Falchi F., Serao G., Cogiel M., Golba D., Szczęsna A., Amato G. Bus violence: An open benchmark for video violence detection on public transport // Sensors. 2022. V. 22. N 21. P. 8345. https://doi.org/10.3390/s22218345
  6. Perez M., Kot A.C., Rocha A. Detection of real-world fights in surveillance videos // Proc. of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 2662–2666. https://doi.org/10.1109/ICASSP.2019.8683676
  7. Cheng M., Cai K., Li M. RWF-2000: An open large scale video database for violence detection // Proc. of the 25th International Conference on Pattern Recognition (ICPR). 2021. P. 4183–4190. https://doi.org/10.1109/ICPR48806.2021.9412502
  8. Potapova R., Komalova L.On principles of annotated databases of the semantic field “aggression” // Lecture Notes in Computer Science. 2014. V. 8773. P. 322–328. https://doi.org/10.1007/978-3-319-11581-8_40
  9. Апанасович К.С., Махныткина О.В., Кабаров В.И., Далевская О.П. RuPersonaChat: корпус диалогов для персонификации разговорных агентов // Научно-технический вестник информационныхтехнологий, механики и оптики. 2024. Т. 24. № 2. С. 214–221. https://doi.org/10.17586/2226-1494-2024-24-2-214-221
  10. Hassoun Al-Jawad M.M., Alharbi H., Almukhtar A.F., Alnawas A.A. Constructing twitter corpus of IraqiArabic Dialect (CIAD) for sentiment analysis// Научно-техническийвестник информационных технологий, механики и оптики. 2022. Т. 22.№ 2. С. 308–316. https://doi.org/10.17586/2226-1494-2022-22-2-308-316
  11. Busso C., Bulut M., Lee C., Kazemzadeh A., Mower E., Kim S., Chang J.N., Lee S., Narayanan S.S.IEMOCAP: Interactive emotional dyadic motion capture database // Language Resources and Evaluation. 2008. V. 42. N 4. P. 335–359. https://doi.org/10.1007/s10579-008-9076-6
  12. Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing // Lecture Notes in Computer Science. 2018. V. 11096. P. 501–510. https://doi.org/10.1007/978-3-319-99579-3_52
  13. Ringeval F., Sonderegger A., Sauer J., Lalanne D.Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // Proc. of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. https://doi.org/10.1109/FG.2013.6553805
  14. Busso C., Parthasarathy S., Burmania A., AbdelWahab M., Sadoughi N., Provost E.M.MSP-IMPROV: An acted corpus of dyadic interactions to study emotion perception // IEEE Transactions on Affective Computing. 2017. V. 8. N 1. P. 67–80. https://doi.org/10.1109/TAFFC.2016.2515617
  15. Ениколопов С.Н.Понятие агрессии в современной психологии // Прикладная психология. 2001.№ 1. С. 60–72.
  16. Groth-MarnatG., WrightA.J. Handbookof Psychological Assessment. John Wiley & Sons, 2016. 824 p.
  17. Uzdiaev M., Vatamaniuk I.Investigation of manifestations of aggressive behavior by users of sociocyberphysical systems on video // Lecture Notes in Networks and Systems. 2021. V. 231. P. 593–604. https://doi.org/10.1007/978-3-030-90321-3_49
  18. Buss A.H. The Psychology of Aggression. John Wiley & Sons, 1961. 307 p. https://doi.org/10.1037/11160-000
  19. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // International conference on machine learning (PMLR). 2023. V. 202. P. 28492–28518.
  20. Plaquet A., Bredin H. Powerset multi-class cross entropy loss for neural speaker diarization // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. P. 3222–3226. https://doi.org/10.21437/Interspeech.2023-205
  21. Lausberg H., Sloetjes H. Coding gestural behavior with the NEUROGES-ELAN system // Behavior Research Methods. 2009. V. 41. N 3. P. 841–849. https://doi.org/10.3758/BRM.41.3.841
  22. Fleiss J.L. Measuring nominal scale agreement among many raters // Psychological Bulletin. 1971. V. 76. N 5. P. 378–382. https://doi.org/10.1037/h0031619
  23. Уздяев М.Ю., Карпов А.А. Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Свидетельство о государственной регистрации базы данных № 2022623239. 2022.
  24. Landis J.R., Koch G.G. The measurement of observer agreement for categorical data // Biometrics. 1977. V. 33. N 1. P. 159–174. https://doi.org/10.2307/2529310
  25. Fleiss J.L., Levin B., Paik M.C. Statistical Methods for Rates and Proportions. John Wiley & Sons, 2013. 800 p.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика