doi: 10.17586/2226-1494-2021-21-3-394-400


УДК 004.89

Алгоритм выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании

Воробьева А.А., Герасимов В.В., Ли Ю.В.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:

Воробьева А.А., Герасимов В.В., Ли Ю.В. Алгоритм выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 3. С. 394–400. doi: 10.17586/2226-1494-2021-21-3-394-400



Аннотация
Предмет исследования. Рассмотрена задача выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании. Создан оригинальный набор данных, представляющий собой записи разговоров между операторами и клиентами, представленный в виде диалогов в текстовом формате. Изучена применимость методов машинного обучения для автоматизации выявления утечек, возникающих в разговоре между оператором и клиентом. Приведены результаты использования данных методов для построения и обучения классификатора: вероятностные (наивный байесовский классификатор), метрические (метод k-ближайших соседей), логические (случайный лес), линейные (метод опорных векторов), методы на основе искусственных нейронных сетей. Рассмотрены различные подходы к построению модели текстов на естественном языке, такие как токенизация (bag of words, n-граммы слов: биграммы и триграммы) и векторизация (one hot encoding). Метод. Предлагаемый алгоритм выявления утечек базируется на применении метода опорных векторов (SVM) и токенизации по биграммам слов. Основные результаты. Полученные результаты демонстрируют, что использование SVM и токенизация по биграммам обеспечивают наиболее высокое качество выявления утечек. Практическая значимость. Результаты исследования могут найти применение при разработке программных систем и комплексов защиты информации, а также для дальнейшего развития методов обработки естественного языка применительно к задачам информационной безопасности.

Ключевые слова: обработка естественного языка, машинное обучение, нейронные сети, комплаенс-риски, инсайдерская информация

Благодарности. Работа выполнена в Университете ИТМО в рамках темы НИР № 50449 «Разработка алгоритмов защиты киберпространства для решения прикладных задач обеспечения кибербезопасности организаций банковской сферы».

Список литературы
1. Nini G., Smith D.C., Sufi A. Creditor control rights and firm investment policy // Journal of Financial Economics. 2009. V. 92. N 3. P. 400–420. doi: 10.1016/j.jfineco.2008.04.008
2. Jaiswal S. Connections and conflicts of interest: investment consultants' recommendations, SSRN. 2018 [Электронный ресурс]. URL: https://ssrn.com/abstract=3106528 (дата обращения: 05.03.2021). doi: 10.2139/ssrn.3106528
3. Jenkinson T., Jones H., Martinez J.V. Picking winners? Investment consultants’ recommendations of fund managers // Journal of Finance. 2016. V. 71. N 5. P. 2333–2370. doi: 10.1111/jofi.12289.
4. Medhat W., Hassan A., Korashy H. Sentiment analysis algorithms and applications: a survey // Ain Shams Engineering Journal. 2014. V. 5. N 4. P. 1093–1113. doi: 10.1016/j.asej.2014.04.011
5. Ghiassi M., Olschimke M., Moon B., Arnaudo P. Automated text classification using a dynamic artificial neural network model // Expert Systems with Applications. 2012. V. 39. N 12. P. 10967–10976. doi: 10.1016/j.eswa.2012.03.027
6. Fuller C.M., Biros D.P., Delen D. An investigation of data and text mining methods for real world deception detection // Expert Systems with Applications. 2011. V. 38. N 7. P. 8392–8398. doi: 10.1016/j.eswa.2011.01.032
7. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. № 1. С. 85–99. doi: 10.15827/0236-235X.030.1.085-099
8. Алексеева В.А. Использование методов интеллектуального анализа в задачах бинарной классификации // Известия Самарского научного центра РАН. 2014. Т. 16. № 6-2. P. 354–356.
9. Бабаев А.М. Основные принципы обработки естественного языка // Дневник науки. 2019. № 12. С. 14.
10. Zhang Y., Jin R., Zhou Z.-H. Understanding bag-of-words model: a statistical framework // International Journal of Machine Learning and Cybernetics. 2010. V. 1. N 1-4. P. 43–52. doi: 10.1007/s13042-010-0001-0
11. Cappelle B., Depraetere I., Lesuisse M. The necessity modals have to, must, need to, and should: Using n-grams to help identify common and distinct semantic and pragmatic aspects // Constructions and Frames. 2019. V. 11. N 2. P. 220–243. doi: 10.1075/cf.00029.cap
12. Weiss S.M., Indurkhya N., Zhang T., Damerau F.F. Text Mining Predictive Methods for Analyzing Unstructured Information. Springer Science+Business Media, Inc., 2010. XII, 237 p. doi: 10.1007/978-0-387-34555-0
13. Kozhevnikov V.A., Pankratova E.S. Research of the text data vectorization and classification algorithms of machine learning // Theoretical & Applied Science. 2020. N 5. P. 574–585. doi: 10.15863/TAS.2020.05.85.106
14. Canbek G., Temizel T.T., Sagiroglu S., Baykal N. Binary classification performance measures/metrics: A comprehensive visualized roadmap to gain new insights // Proc. 2nd International Conference on Computer Science and Engineering (UBMK). 2017. P. 821–826. doi: 10.1109/UBMK.2017.8093539
15. Koyejo O., Natarajan N., Ravikumar P., Dhillon I.S. Consistent binary classification with generalized performance metrics // Advances in Neural Information Processing Systems. 2014. V. 27. P. 2744–2752.
16. Lee J. Can investors detect managers' lack of spontaneity? Adherence to predetermined scripts during earnings conference calls // Accounting Review. 2016. V. 91. N 1. P. 229–250. doi: 10.2308/accr-51135


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика