Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2024-24-5-834-842
УДК 004.4/.5
Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Уздяев М.Ю., Карпов А.А. Создание и анализ многомодального корпуса данных для автоматического распознавания агрессивного поведения людей // Научно-технический вестник информационных технологий, механики и оптики. 2024. Т. 24, № 5. С. 834–842. doi: 10.17586/2226-1494-2024-24-5-834-842
Аннотация
Введение. Развитие цифровых систем коммуникации сопряжено с растущим количеством проявлений деструктивного поведения людей и необходимостью оперативного на него реагирования. Ввиду слабой формализации предметной области агрессии, наиболее перспективными методами распознавания деструктивного поведения являются методы, основанные на подходах машинного обучения, которые для эффективной работы требуют репрезентативных выборок релевантных данных. При создании корпусов поведенческих данных необходимо решить следующие проблемы: соответствие разметки данных корпуса реальному поведению; представленности поведения в однотипных ситуациях и в корпусе натурального поведения. Целью работы является разработка методики создания выборки многомодальных данных поведенческой агрессии человека, содержательно отражающей агрессию как явление и обеспечивающей релевантность данных. Метод. В работе описывается разработанная методика создания выборок многомодальных данных, содержащих спонтанное агрессивное поведение. В ходе содержательного анализа предметной области агрессивного поведения человека выделяются значимые атрибуты агрессии такие как явления (наличие субъекта и объекта агрессии, деструктивный характер агрессивного действия) и единицы анализа поведения (временные сегменты аудио и видео, на которых локализованы информанты); определяются типы регистрируемой агрессии (физическая и вербальная явные прямые); обосновываются критерии оценки агрессивного поведения каждого типа посредством введения перечня действий, однозначно определяющих каждый вид агрессии. Методика состоит из следующих этапов: сбор видео в открытом доступе в сети Интернет; выделение временных интервалов, на которых проявляется агрессия; локализация информантов на кадрах видео; транскрибирование реплик информантов; оценка актов физической и вербальной агрессии группой аннотаторов посредством разработанного алгоритма оценки поведения; вычисление согласованности оценок с помощью коэффициента Флейсса. Основные результаты. Для апробации методики создан и размечен группой аннотаторов аудиовизуальный корпус данных спонтанного агрессивного поведения русскоязычных информантов Audiovisual Aggressive Behavior in Online Streams (AVABOS). Корпус данных содержит видео- и аудиосегменты, на которых присутствует вербальная и физическая агрессии соответственно, проявляемые русскоязычными информантами в ходе онлайн-видеотрансляций. Обсуждение. Результаты согласованности разметки показали высокий уровень для физической агрессии (κ = 0,74) и средний уровень для вербальной (κ = 0,48), что подтверждает обоснованность разработанной методики. Корпус данных AVABOS может использоваться для решения задач автоматического распознавания агрессии человека. Помимо создания корпусов агрессивного поведения, методика также может использоваться для создания корпусов, содержащих другое поведение.
Ключевые слова: методика создания многомодального корпуса, методика оценки поведения, агрессивное поведение, распознавание
агрессии, создание выборки данных, оценка согласованности разметки, коэффициент Флейсса
Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (№ 22-11-00321, https://www. rscf.ru/project/22-11-00321/).
Список литературы
Благодарности. Исследование выполнено при финансовой поддержке Российского научного фонда (№ 22-11-00321, https://www. rscf.ru/project/22-11-00321/).
Список литературы
- Lefter I., Rothkrantz L.J.M., Burghouts G.J. A comparative study on automatic audio–visual fusion for aggression detection using meta-information // Pattern Recognition Letters. 2013. V. 34. N 15. P. 1953–1963. https://doi.org/10.1016/j.patrec.2013.01.002
- Lefter I., Burghouts G.J., Rothkrantz L.J.M. An audio-visual dataset of human–human interactions in stressful situations // Journal on Multimodal User Interfaces. 2014. V. 8. N 1. P. 29–41. https://doi.org/10.1007/s12193-014-0150-7
- Lefter I., Jonker C.M., Tuente S.K., Veling W., Bogaerts S. NAA: A multimodal database of negative affect and aggression // Proc. of the Seventh International Conference on Affective Computing and Intelligent Interaction (ACII). 2017. P. 21–27. https://doi.org/10.1109/ACII.2017.8273574
- Sernani P., Falcionelli N., Tomassini S., Contardo P., Dragoni A.F. Deep learning for automatic violence detection: Tests on the AIRTLab dataset // IEEE Access. 2021. V. 9. P. 160580–160595. https://doi.org/10.1109/ACCESS.2021.3131315
- Ciampi L., Foszner P., Messina N., Staniszewski M., Gennaro C., Falchi F., Serao G., Cogiel M., Golba D., Szczęsna A., Amato G. Bus violence: An open benchmark for video violence detection on public transport // Sensors. 2022. V. 22. N 21. P. 8345. https://doi.org/10.3390/s22218345
- Perez M., Kot A.C., Rocha A. Detection of real-world fights in surveillance videos // Proc. of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. P. 2662–2666. https://doi.org/10.1109/ICASSP.2019.8683676
- Cheng M., Cai K., Li M. RWF-2000: An open large scale video database for violence detection // Proc. of the 25th International Conference on Pattern Recognition (ICPR). 2021. P. 4183–4190. https://doi.org/10.1109/ICPR48806.2021.9412502
- Potapova R., Komalova L.On principles of annotated databases of the semantic field “aggression” // Lecture Notes in Computer Science. 2014. V. 8773. P. 322–328. https://doi.org/10.1007/978-3-319-11581-8_40
- Апанасович К.С., Махныткина О.В., Кабаров В.И., Далевская О.П. RuPersonaChat: корпус диалогов для персонификации разговорных агентов // Научно-технический вестник информационныхтехнологий, механики и оптики. 2024. Т. 24. № 2. С. 214–221. https://doi.org/10.17586/2226-1494-2024-24-2-214-221
- Hassoun Al-Jawad M.M., Alharbi H., Almukhtar A.F., Alnawas A.A. Constructing twitter corpus of IraqiArabic Dialect (CIAD) for sentiment analysis// Научно-техническийвестник информационных технологий, механики и оптики. 2022. Т. 22.№ 2. С. 308–316. https://doi.org/10.17586/2226-1494-2022-22-2-308-316
- Busso C., Bulut M., Lee C., Kazemzadeh A., Mower E., Kim S., Chang J.N., Lee S., Narayanan S.S.IEMOCAP: Interactive emotional dyadic motion capture database // Language Resources and Evaluation. 2008. V. 42. N 4. P. 335–359. https://doi.org/10.1007/s10579-008-9076-6
- Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian multimodal corpus of dyadic interaction for affective computing // Lecture Notes in Computer Science. 2018. V. 11096. P. 501–510. https://doi.org/10.1007/978-3-319-99579-3_52
- Ringeval F., Sonderegger A., Sauer J., Lalanne D.Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions // Proc. of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). 2013. P. 1–8. https://doi.org/10.1109/FG.2013.6553805
- Busso C., Parthasarathy S., Burmania A., AbdelWahab M., Sadoughi N., Provost E.M.MSP-IMPROV: An acted corpus of dyadic interactions to study emotion perception // IEEE Transactions on Affective Computing. 2017. V. 8. N 1. P. 67–80. https://doi.org/10.1109/TAFFC.2016.2515617
- Ениколопов С.Н.Понятие агрессии в современной психологии // Прикладная психология. 2001.№ 1. С. 60–72.
- Groth-MarnatG., WrightA.J. Handbookof Psychological Assessment. John Wiley & Sons, 2016. 824 p.
- Uzdiaev M., Vatamaniuk I.Investigation of manifestations of aggressive behavior by users of sociocyberphysical systems on video // Lecture Notes in Networks and Systems. 2021. V. 231. P. 593–604. https://doi.org/10.1007/978-3-030-90321-3_49
- Buss A.H. The Psychology of Aggression. John Wiley & Sons, 1961. 307 p. https://doi.org/10.1037/11160-000
- Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // International conference on machine learning (PMLR). 2023. V. 202. P. 28492–28518.
- Plaquet A., Bredin H. Powerset multi-class cross entropy loss for neural speaker diarization // Proc. of the Annual Conference of the International Speech Communication Association, INTERSPEECH. 2023. P. 3222–3226. https://doi.org/10.21437/Interspeech.2023-205
- Lausberg H., Sloetjes H. Coding gestural behavior with the NEUROGES-ELAN system // Behavior Research Methods. 2009. V. 41. N 3. P. 841–849. https://doi.org/10.3758/BRM.41.3.841
- Fleiss J.L. Measuring nominal scale agreement among many raters // Psychological Bulletin. 1971. V. 76. N 5. P. 378–382. https://doi.org/10.1037/h0031619
- Уздяев М.Ю., Карпов А.А. Аудиовизуальный корпус данных поведенческой агрессии в ходе онлайн трансляций (Audiovisual Aggressive Behavior in Online Streams dataset – AVABOS). Свидетельство о государственной регистрации базы данных № 2022623239. 2022.
- Landis J.R., Koch G.G. The measurement of observer agreement for categorical data // Biometrics. 1977. V. 33. N 1. P. 159–174. https://doi.org/10.2307/2529310
- Fleiss J.L., Levin B., Paik M.C. Statistical Methods for Rates and Proportions. John Wiley & Sons, 2013. 800 p.