Меню
Публикации
2026
2025
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2026-26-2-337-348
УДК 004.855.5
Многозадачный анализ психологического портрета человека на основе текстовых данных с применением полуконтролируемого обучения
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Коряковская Д.О., Аксёнов А.А., Рюмина Е.В., Рюмин Д.А. Многозадачный анализ психологического портрета человека на основе текстовых данных с применением полуконтролируемого обучения // Научно-технический вестник информационных технологий, механики и оптики. 2026. Т. 26, № 2. С. 337–348. doi: 10.17586/2226-1494-2026-26-2-337-34
Аннотация
Введение. Многозадачный анализ психологического портрета человека позволяет формировать более целостное представление о нем, что особенно востребовано в системах персонализации, HR-технологиях и человеко-машинном взаимодействии. Однако до настоящего времени подобные исследования не проводились из-за отсутствия корпусов с совместной разметкой по обеим задачам, что делает невозможным традиционное многозадачное обучение. Метод. Предложен метод полуконтролируемого кросс-доменного обучения, позволяющий эффективно интегрировать два раздельно аннотированных корпуса: CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) (для распознавания эмоций) и ChaLearn First Impressions v2 (FIv2) (для оценивания личностных характеристик), без дополнительной разметки. Экспериментальная установка включает два этапа: обучение независимых однозадачных моделей для извлечения доменно-специфичных признаков и формирование базовых прогнозов; создание совместной кросс-доменной модели с блоками перекрестного внимания, которая объединяет эмоциональные и личностные признаки. Финальное предсказание формируется путем усреднения выходов однозадачных и совместной моделей, что повышает робастность. Выполнено сравнение предобученных энкодеров (Jina-v3 и BGE-en) и контекстных моделей (трансформер и Mamba). Обучение моделей осуществлено с использованием гибридной функции потерь, сочетающей контролируемые и полуконтролируемые компоненты с псевдометками. Основные результаты. Эксперименты показали, что наилучшие результаты достигаются при использовании энкодера Jina-v3 и контекстной модели Mamba: средняя взвешенная точность классификации (mWACC) составила 62,52 %, а средняя взвешенная F1-мера (mMF1) — 61,03 % на корпусе CMU-MOSEI; средняя точность (mACC) составила 88,80 %, а средний коэффициент корреляции конкордации Лина (mCCC) — 25,44 % на FIv2. Модель демонстрирует устойчивую передачу знаний между задачами и превосходит современные решения. Визуализация внимания методом Gradient-weighted Class Activation Mapping подтверждает интерпретируемость прогнозов. Обсуждение. Представленные результаты исследования открывают возможности разработки масштабируемых систем психологического профилирования по тексту в условиях дефицита разметки. Предложенный метод применим в кадровом менеджменте, адаптивных обучающих платформах, персонализированных чат-ботах и цифровой психометрике, где требуются одновременный учет эмоционального состояния и устойчивых личностных характеристик.
Ключевые слова: распознавание эмоций, распознавание личностных характеристик, многозадачное обучение, кросс-доменное машинное обучение, полуконтролируемое машинное обучение, визуализации внимания модели
Благодарности. Раздел «Обзор литературы» выполнен в рамках бюджетной темы СПб ФИЦ РАН (№ FFZF-2025-0003), разработка компонентов полуконтролируемого машинного обучения, включая гибридную функцию потерь и механизм псевдометок, проведена при поддержке Российского научного фонда (проект № 24-71-00083), а проектирование архитектуры кросс-доменной модели с блоками перекрестного внимания и интеграцией контекстных моделей — при поддержке Российского научного фонда (проект № 24-71-00112).
Список литературы
Благодарности. Раздел «Обзор литературы» выполнен в рамках бюджетной темы СПб ФИЦ РАН (№ FFZF-2025-0003), разработка компонентов полуконтролируемого машинного обучения, включая гибридную функцию потерь и механизм псевдометок, проведена при поддержке Российского научного фонда (проект № 24-71-00083), а проектирование архитектуры кросс-доменной модели с блоками перекрестного внимания и интеграцией контекстных моделей — при поддержке Российского научного фонда (проект № 24-71-00112).
Список литературы
1. Karanatsiou D., Sermpezis P., Gruda D., Kafetsios K., Dimitriadis I., Vakali A. My tweets bring all the traits to the yard: Predicting personality and relational traits in Online Social Networks // ACM Transactions on the Web (TWEB). 2022. V. 16. N 2. P. 1–26. https://doi.org/10.1145/3523749
2. Двойникова А.А, Маркитантов М.В., Рюмина Е.В., Уздяев М.Ю., Величко А.Н., Рюмин Д.А., Ляксо Е.Е., Карпов А.А. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. 2022. Т. 21. № 6. С. 1097–1144. https://doi.org/10.15622/ia.21.6.2
3. Sorin V., Brin D., Barash Y., Konen E., Charney A., Nadkarni G., Klang E. Large language models and empathy: systematic review // Journal of Medical Internet Research. 2024. V. 26. P. e52597. https://doi.org/10.2196/52597
4. Rajesh S.G., Madangarli S.V., Pisharady G.S., Subrahmanyam R. Enhancement of Virtual Assistants through MultiModal AI for Emotion Recognition // IEEE Access. 2025.V. 13. P. 102159–102179. https://doi.org/10.1109/ACCESS.2025.3577664
5. Kovacevic N., Holz C., Gross M., Wampfler R. On multimodal emotion recognition for human-chatbot interaction in the wild // Proc. of the International Conference on Multimodal Interaction. 2024. P. 12–21. https://doi.org/10.1145/3678957.3685759
6. Bao Y., Wang Y., Qi Y., Yang Q., Liu R., Feng L. Emotion-Assisted multi-modal Personality Recognition using adversarial Contrastive learning // Knowledge-Based Systems. 2025. V. 317. P. 113504. https://doi.org/10.1016/j.knosys.2025.113504
7. Mohammadi G., Vuilleumier P. A multi-componential approach to emotion recognition and the effect of personality // IEEE Transactions on Affective Computing. 2020. V. 13. N 3. P. 1127–1139. https://doi.org/10.1109/TAFFC.2020.3028109
8. Li Y., Bell P., Lai C. Transfer Learning for Personality Perception via Speech Emotion Recognition // Proc. of the Annual Conference of the International Speech Communication Association Interspeech. 2023. P. 5197–5201. https://doi.org/10.21437/Interspeech.2023-2061
9. Chandraumakantham O., Gowtham N., Zakariah M., Almazyad A. Multimodal emotion recognition using feature fusion: an LLM-based approach // IEEE Access. 2024. V. 12. P. 108052–108071. https://doi.org/10.1109/ACCESS.2024.3425953
10. Gan P., Sowmya A., Mohammadi G. CLIP-based model for effective and explainable apparent personality perception // Proc. of the 1st International Workshop on Multimodal and Responsible Affective Computing. 2023. P. 29–37. https://doi.org/10.1145/3607865.3613178
11. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2019. V. 1. P. 4171–4186. https://doi.org/10.18653/v1/N19-1423
12. Boitel E., Mohasseb A., Haig E. MIST: Multimodal emotion recognition using DeBERTa for text, Semi-CNN for speech, ResNet-50 for facial, and 3D-CNN for motion analysis // Expert Systems with Applications. 2025. V. 270. P. 126236. https://doi.org/10.1016/j.eswa.2024.126236
13. Li Y., Wang Y., Cui Z. Decoupled multimodal distilling for emotion recognition // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023. P. 6631–6640. https://doi.org/10.1109/CVPR52729.2023.00641
14. Agrawal T., Balazia M., Müller P., Brémond F. Multimodal vision transformers with forced attention for behavior analysis // Proc. of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2023. P. 3381–3391. https://doi.org/10.1109/WACV56688.2023.00339
15. Ryumina E., Markitantov M., Ryumin D., Karpov A. Gated Siamese Fusion Network based on multimodal deep and hand-crafted features for personality traits assessment // Pattern Recognition Letters. 2024. V. 185. P. 45–51. https://doi.org/10.1016/j.patrec.2024.07.004
16. Peng C., Chen K., Shou L., Chen G. CARAT: Contrastive feature reconstruction and aggregation for multi-modal multi-label emotion recognition // Proceedings of the AAAI Conference on Artificial Intelligence. 2024. V. 38. N 13. P. 14581–14589. https://doi.org/10.1609/aaai.v38i13.29374
17. Bagher Zadeh A., Liang P.P., Poria S., Cambria E., Morency L.P. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph // Proc. of the 56th Annual Meeting of the Association for Computational Linguistics. 2018. V. 1. P. 2236-2246. https://doi.org/10.18653/v1/P18-1208
18. Escalante H.J., Kaya H., Salah A., Escalera S., Gucluturk Y., Guclu U., et al. Modeling, Recognizing, and Explaining Apparent Personality from Videos // IEEE Transactions on Affective Computing. 2020. V. 13. N 2. P. 894–911. https://doi.org/10.1109/TAFFC.2020.2973984
19. Ouali Y., Hudelot C., Tami M. Semi-supervised semantic segmentation with cross-consistency training // Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. P. 12671–12681. https://doi.org/10.1109/CVPR42600.2020.01269
20. Lian Z., Liu B., Tao J. SMIN: Semi-supervised multi-modal interaction network for conversational emotion recognition // IEEE Transactions on Affective Computing. 2023. V. 14. N 3. P. 2415–2429. https://doi.org/10.1109/TAFFC.2022.3141237
21. Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., et al. Unsupervised cross-lingual representation learning at scale // Proc. of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P. 8440–8451. https://doi.org/10.18653/v1/2020.acl-main.747
22. Hosseini S.S., Yamaghani M.R., Arabani S.P. Multimodal modelling of human emotion using sound, image and text fusion // Signal, Image and Video Processing. 2023. V. 18. N 1. P. 71–79. https://doi.org/10.1007/s11760-023-02707-8
23. Deng L., Liu B., Li Z. Multimodal sentiment analysis based on a cross-modal multihead attention mechanism // Computers, Materials and Continua. 2024. V. 78. N 1. P. 1157–1170. https://doi.org/10.32604/cmc.2023.042150
24. Goncalves L., Leem S.-G., Lin W.-C., Sisman B., Busso C. Versatile audio-visual learning for emotion recognition // IEEE Transactions on Affective Computing. 2023. V. 16. N 1. P. 306–318. https://doi.org/10.1109/TAFFC.2024.3433386
25. Cui Z., Li Y., Wang Y. Incomplete multimodality-diffused emotion recognition // Proc. of the Advances in Neural Information Processing System. 2023. P. 17117–17128. https://doi.org/10.52202/075280-0748
26. Arumugam L., Arumugam S., Chidambaram P., Govindasamy K. A multi-modal deep learning approach for human emotion recognition // Cognitive Neurodynamics. 2025. V. 19. N 1. P. 123. https://doi.org/10.1007/s11571-025-10304-3
27. Li D., Xing B., Liu X., Xia B., Wen B., Kälviäinen H. DEEMO: De-identity multimodal emotion recognition and reasoning // arXiv. 2025. arXiv:2504.19549. https://doi.org/10.48550/arXiv.2504.19549
28. Zhang D., Ju X., Li J., Li S., Zhu Q., Zhou G. Multi-modal multi-label emotion detection with modality and label dependence // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020. P. 3584–3593. https://doi.org/10.18653/v1/2020.emnlp-main.291
29. Zhang Y., Chen M., Shen J., Wang C. TAILOR versatile multi-modal learning for multi-label emotion recognition // Proceedings of the AAAI Conference on Artificial Intelligence. 2022. V. 36. N 8. P. 9100–9108. https://doi.org/10.1609/aaai.v36i8.20895
30. Ryumina E., Ryumin D., Axyonov A., Ivanko D., Karpov A. Multi-corpus emotion recognition method based on cross-modal gated attention fusion // Pattern Recognition Letters. 2025. V. 190. P. 192–200. https://doi.org/10.1016/j.patrec.2025.02.024
31. Naz A., Khan H.U., Bukhari A., Alshemaimri B., Daud A., Ramzan M. Machine and deep learning for personality traits detection: a comprehensive survey and open research challenges // Artificial Intelligence Review. 2025. V. 58. N 8. P. 239. https://doi.org/10.1007/s10462-025-11245-3
32. Soto C.J., Jackson J.J. Five-factor model of personality // Journal of Research in Personality. 2013. V. 42. P. 1285–1302.
33. Ouarka A., Baha T.A., Es-Saady Y., El Hajji M. A deep multimodal fusion method for personality traits prediction // Multimedia Tools and Applications. 2024. V. 84. N 25. P. 29665–29687. https://doi.org/10.1007/s11042-024-20356-y
34. Liu W., Sun Z., Wei S., Zhang S., Zhu G., Chen L. PS-GCN: psycholinguistic graph and sentiment semantic fused graph convolutional networks for personality detection // Connection Science. 2024. V. 36. N 1. P. 2295820. https://doi.org/10.1080/09540091.2023.2295820
35. Akber M.A., Ferdousi T., Ahmed R., Asfara R., Rab R., Zakia U. Personality and emotion - a comprehensive analysis using contextual text embeddings // Natural Language Processing Journal. 2024. V. 9. P. 100105. https://doi.org/10.1016/j.nlp.2024.100105
36. Motlagh S.M.H., Rezvani M.H., Khounsiavash M. AI methods for personality traits recognition: a systematic review // Neurocomputing. 2025. V. 640. P. 130301. https://doi.org/10.1016/j.neucom.2025.130301
37. Zhang Y., Yang Q. A Survey on multi-task learning // IEEE Transactions on Knowledge and Data Engineering. 2021. V. 34. N 12. P. 5586–5609. https://doi.org/10.1109/TKDE.2021.3070203
38. Li Y., Kazemeini A., Mehta Y., Cambria E. Multitask learning for emotion and personality traits detection // Neurocomputing. 2022. V. 493. P. 340–350. https://doi.org/10.1016/j.neucom.2022.04.049
39. Talaat F.M., El-Gendy E.M., Saafan M.M., Gamel S.A. Utilizing social media and machine learning for personality and emotion recognition using PERS // Neural Computing and Applications. 2023. V. 35. P. 23927–23941. https://doi.org/10.1007/s00521-023-08962-7
40. Sturua S., Mohr I., Akram M.K., Günther M., Wang B., Krimmel M., et al. Jina Embeddings V3: multilingual text encoder with low-rank adaptations // Lecture Notes in Computer Science. 2025. V. 15576. P. 123–129. https://doi.org/10.1007/978-3-031-88720-8_21
41. Choure A.A., Adhao R.B., Pachghare V.K. NER in Hindi language using transformer model: XLM-RoBERTa // Proc. of the IEEE International Conference on Blockchain and Distributed Systems Security (ICBDS). 2022. P. 1–5. https://doi.org/10.1109/icbds53701.2022.9935841
42. Xiao S., Liu Z., Zhang P., Muennighoff N., Lian D., Nie J.-Y. C-Pack: Packed resources for general chinese embeddings // Proc. of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2024. P. 641–649. https://doi.org/10.1145/3626772.3657878
43. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., et al. Attention is all you need // Proc. of the 31st Conference on Neural Information Processing Systems. 2017. P. 1–11.
44. Gu A., Dao T. Mamba: linear-time sequence modeling with selective state spaces // arXiv. 2023. arXiv:2312.00752. https://doi.org/10.48550/arXiv.2312.00752
45. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // Proc. of the 40th International Conference on Machine Learning. 2023. P. 28492–28518.
46. Demšar J. Statistical comparisons of classifiers over multiple data sets // Journal of Machine Learning Research. 2006. V. 7. P. 1–30.
47. Efron B., Tibshirani R. An Introduction to the Bootstrap. Chapman and Hall/CRC, 1994. 456 p.
48. Selvaraju R.R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D. Grad-CAM: Visual explanations from deep networks via gradient-based localization // Proc. of the IEEE International Conference on Computer Vision (ICCV). 2017. P. 618–626. https://doi.org/10.1109/iccv.2017.74
49. Yang A., Li A., Yang B., Zhang B., Hui B., Zheng B., et al. Qwen3 technical report // arXiv. 2025. arXiv:2505.09388. https://doi.org/10.48550/arXiv.2505.09388

