doi: 10.17586/2226-1494-2021-21-5-727-737


УДК 004.891 311.2

Машинное обучение байесовской сети доверия как инструмента оценки интенсивности процесса по данным из социальной сети

Торопова А.В., Абрамов М.В., Тулупьева Т.В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Торопова А.В., Абрамов М.В., Тулупьева Т.В. Машинное обучение байесовской сети доверия как инструмента оценки интенсивности процесса по данным из социальной сети // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 5. С. 727–737. doi: 10.17586/2226-1494-2021-21-5-727-737


Аннотация
Предмет исследования. Рассмотрена задача оценки интенсивности протекания процессов, у которых математической моделью выступают стохастические процессы. Процессы состоят из серии последовательных эпизодов с известным классом распределений длины временного интервала между ними. Ранее был предложен подход, в котором входными данными выступали сведения о значении величины интервала между последним эпизодом и концом исследуемого периода, что могло привести к неточным результатам. Интервал отличался от промежутков между последовательными эпизодами, и поэтому его представление и обработка требует специальных подходов. Для повышения точности результатов оценки интенсивности процесса разработана новая модель. Модель основана на байесовской сети доверия и содержит узлы, которые соответствуют интервалам между последними эпизодами процесса, минимальным и максимальным интервалами между эпизодами, с помощью корректного учета на этапе обучения модели значений интервала между последним эпизодом и концом исследуемого периода. Метод. Предложена байесовская сеть доверия со случайным элементом, для построения интервала между окончанием периода исследования и последним эпизодом процесса за исследуемый период. На этапе обучения данные об этом интервале могут быть доступны. Для моделирования использовано программирование в системе R и пакет bnlearn, который обеспечивает работу с байесовскими сетями доверия. Основные результаты. Предложен новый подход к оценке интенсивности процесса на основе байесовской сети доверия, сформированной методами машинного обучения. Он позволяет повысить точность результатов посредством корректного учета величины интервала между последним эпизодом и окончанием исследуемого периода посредством применения особой схемы в машинном обучении байесовской сети, которая включает «гипотетический» эпизод после конца исследуемого периода. Для апробации предложенного подхода использованы данные о 5608 пользователях социальной сети Instagram на основании публикаций постов за 2020 год и первого поста за 2021 год. 70 % выборки использовано для обучения модели и 30 % для сравнения значений интенсивности постинга, предсказанных моделью с известными значениями. Практическая значимость. Полученные результаты могут применяться в различных сферах науки, где требуется оценка интенсивности процесса в условиях дефицита информации, когда весь процесс наблюдается ограниченное время. Получение таких оценок – важная задача в медицине, эпидемиологии, социологии и др. Подход показал хорошие результаты на сопоставлении теоретической модели и результатов обучения по данным из социальной сети, что создает основу для автоматизации получения оценок интенсивности процесса.

Ключевые слова: интенсивность процесса, оценка интенсивности, байесовские сети доверия, эпизоды процесса, стохастический процесс

Благодарности. Работа выполнена в рамках проекта по государственному заданию Санкт-Петербургского Федерального исследовательского центра Российской академии наук № 0073-2019-0003; при финансовой поддержке РФФИ: проект № 19-37-90120; проект № 20-07-00839.

Список литературы
1. Суворова А.В., Тулупьев А.Л. Синтез структур байесовской сети доверия для оценки характеристик рискованного поведения // Информационно-управляющие системы. 2018. № 1. С. 116–122. https://doi.org/10.15217/issn1684-8853.2018.1.116
2. Conners E.E., West B.S., Roth A.M., Meckel-Parker K.G., Kwan M.-P., Magis-Rodriguez C., Staines-Orozco H., Clapp J.D., Brouwer K.C. Quantitative, qualitative and geospatial methods to characterize HIV risk environments // PLoS ONE. 2016. V. 11. N 5. P. e0155693 https://doi.org/10.1371/journal.pone.0155693
3. Абрамов М.В., Тулупьева Т.В., Тулупьев А.Л. Социоинженерные атаки: социальные сети и оценки защищенности пользователей. СПб.: ГУАП, 2018. 266 с.
4. Skinner B.F. Science and Human Behavior. Free Press, 1965. 461 p.
5. Суворова А.В. Моделирование социально-значимого поведения по сверхмалой неполной совокупности наблюдений // Информационно-измерительные и управляющие системы. 2013. Т. 11. № 9. С. 34–37.
6. Торопова А.В., Суворова А.В., Тулупьев А.Л. Диагностика согласованности в модели для оценивания интенсивности социально-значимого поведения // Нечеткие системы и мягкие вычисления. 2015. Т. 10. № 1. С. 93–107.
7. Friman P.C. Cooper, heron, and heward's applied behavior analysis (2nd edition): Checkered flag for students and professors, Yellow flag for the field // Journal of Applied Behavior Analysis. 2010. V. 43. N 1. P. 161–174. https://doi.org/10.1901/jaba.2010.43-161
8. Bolger N., Davis A., Rafaeli E. Diary methods: capturing life as it is lived // Annual Review of Psychology. 2003. V. 54. P. 579–616. https://doi.org/10.1146/annurev.psych.54.101601.145030
9. Graham C.A., Catania J.A., Brand R., Duong T., Canchola J.A. Recalling sexual behavior: A methodological analysis of memory recall bias via interview using the diary as the gold standard // Journal of Sex Research. 2003. V. 40. N 4. P. 325–332. https://doi.org/10.1080/00224490209552198
10. Kuleshov S., Zaytseva A., Aksenov A. Natural language search and associative-ontology matching algorithms based on graph representation of texts // Advances in Intelligent Systems and Computing. 2019. V. 1046. P. 285–294. https://doi.org/10.1007/978-3-030-30329-7_26
11. Тулупьев А.Л., Сироткин А.В., Николенко С.И. Байесовские сети доверия. СПб.: Изд-во Санкт-Петербургского ун-та, 2009. 399 с.
12. Dai J., Ren J., Du W. Decomposition-based Bayesian network structure learning algorithm using local topology information // Knowledge-Based Systems. 2020. V. 195. P. 105602. https://doi.org/10.1016/j.knosys.2020.105602
13. Bareinboim E., Pearl J. Causal inference and the data-fusion problem // Proceedings of the National Academy of Sciences of the United States of America. 2016. V. 113. N 27. P. 7345–7352. https://doi.org/10.1073/pnas.1510507113
14. Chen C., Zhang L., Tiong R.L.K. A novel learning cloud Bayesian network for risk measurement // Applied Soft Computing Journal. 2020. V. 87. P. 105947. https://doi.org/10.1016/j.asoc.2019.105947
15. Cobb B.R., Li L. Bayesian network model for quality control with categorical attribute data // Applied Soft Computing Journal. 2019. V. 84. P. 105746. https://doi.org/10.1016/j.asoc.2019.105746
16. He R., Tian J., Wu H. Structure learning in Bayesian networks of a moderate size by efficient sampling // Journal of Machine Learning Research. 2016. V. 17. P. 1–54.
17. Kabir G., Demissie G., Sadiq R., Tesfamariam S. Integrating failure prediction models for water mains: Bayesian belief network based data fusion // Knowledge-Based Systems. 2015. V. 85. P. 159–169. https://doi.org/10.1016/j.knosys.2015.05.002
18. Toropova A., Tulupyeva T. Synthesis and learning of socially significant behavior model with hidden variables // Advances in Intelligent Systems and Computing. 2019. V. 875. P. 76–84. https://doi.org/10.1007/978-3-030-01821-4_9
19. Jabeen S., Kausar R. Obsessive compulsive disorder: frequency and gender estimates // Pakistan Journal of Medical Sciences. 2020. V. 36. N 5. P. 1048–1052. https://doi.org/10.12669/pjms.36.5.1870
20. Kugeler K.J., Schwartz A.M., Delorey M.J., Mead P.S., Hinckley A.F. Estimating the frequency of lyme disease diagnoses, United States, 2010–2018 // Emerging Infectious Diseases. 2021. V. 27. N 2. P. 616–619. https://doi.org/10.3201/eid2702.202731
21. Wolfson J.A., Ishikawa Y., Hosokawa C., Janisch K., Massa J., Eisenberg D.M. Gender differences in global estimates of cooking frequency prior to COVID-19 // Appetite. 2021. V. 161. P. 105117. https://doi.org/10.1016/j.appet.2021.105117
22. Cano-Lozano M.C., León S.P., Contreras L. Child-to-Parent violence: examining the frequency and reasons in spanish youth // Family Relations. 2021. in press. https://doi.org/10.1111/fare.12567
23. Nieto-García M., Muñoz-Gallego P.A., Gonzalez-Benito Ó. The more the merrier? Understanding how travel frequency shapes willingness to pay // Cornell Hospitality Quarterly. 2020. V. 61. N 4. P. 401–415. https://doi.org/10.1177/1938965519899932
24. Зельтерман Д., Тулупьев А.Л., Суворова А.В., Пащенко А.Е., Мусина В.Ф., Тулупьева Т.В., Красносельских Т.В., Гро Л.Е., Хаймер Р. Обработка систематической ошибки, связанной с длиной временных интервалов между интервью и последним эпизодом в гамма-пуассоновской модели поведения // Труды СПИИРАН. 2011. № 1. С. 160–185. https://doi.org/10.15622/sp.16.6
25. Степанов Д.В., Мусина В.Ф., Суворова А.В., Тулупьев А.Л., Сироткин А.В., Тулупьева Т.В. Функция правдоподобия с гетерогенными аргументами в идентификации пуассоновской модели рискованного поведения в случае информационного дефицита // Труды СПИИРАН. 2012. № 4. С. 157–184. https://doi.org/10.15622/sp.23.9
26. Ярушкина Н.Г. Предиктивная аналитика на основе нечетких временных рядов // Интегрированные модели и мягкие вычисления в искусственном интеллекте (ИММВ-2021): Сборник научных трудов X Международной научно-технической конференции. В 2-х т. Т. 1. Коломна, 17–20 мая 2021 года. Смоленск: Универсум, 2021. С. 116–128.
27. Özkaya U., Yiğit E., Seyfi L., Öztürk S., Singh D. Comparative regression analysis for estimating resonant frequency of c-like patch antennas // Mathematical Problems in Engineering. 2021. V. 2021. P. 6903925. https://doi.org/10.1155/2021/6903925
28. Osipov V.Y., Vodyaho A.I., Zhukova N.A., Glebovsky P.A. Multilevel automatic synthesis of behavioral programs for smart devices // Proc. 2017 International Conference on Control, Artificial Intelligence, Robotics ans Optimization (ICCAIRO). 2017. P. 335–340. https://doi.org/10.1109/ICCAIRO.2017.68
29. Desmond N., Nagelkerke N., Lora W., Chipeta E., Sambo M., Kumwenda M., Corbett E.L., Taegtemeyer M., Seeley J., Lalloo D.G., Theobald S. Measuring sexual behaviour in Malawi: a triangulation of three data collection instruments // BMC Public Health. 2018. V. 18. N 1. P. 807. https://doi.org/10.1186/s12889-018-5717-x
30. Suvorova A., Belyakov A., Makhamatova A., Ustinov A., Levina O., Tulupyev A., Niccolai L., Rassokhin V., Heimer R. Comparison of satisfaction with care between two different models of HIV care delivery in St. Petersburg, Russia // AIDS Care. 2015. V. 27. N 10. P. 1309–1316. https://doi.org/10.1080/09540121.2015.1054337
31. Shane-Simpson C., Schwartz A.M., Abi-Habib R., Tohme P., Obeid R. I love my selfie! an investigation of overt and covert narcissism to understand selfie-posting behaviors within three geographic communities // Computers in Human Behavior. 2020. V. 104. P. 106158. https://doi.org/10.1016/j.chb.2019.106158
32. Chen S.X., Lam B.C.P., Hui B.P.H., Ng J.C.K., Mak W.W.S., Guan Y., Buchtel E.E., Tang W.C.S., Lau V.C.Y. Conceptualizing psychological processes in response to globalization: Components, antecedents, and consequences of global orientations // Journal of Personality and Social Psychology. 2016. V. 110. N 2. P. 302–331. https://doi.org/10.1037/a0039647


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика