Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2021-21-3-394-400
УДК 004.89
Алгоритм выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Воробьева А.А., Герасимов В.В., Ли Ю.В. Алгоритм выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 3. С. 394–400. doi: 10.17586/2226-1494-2021-21-3-394-400
Аннотация
Предмет исследования. Рассмотрена задача выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании. Создан оригинальный набор данных, представляющий собой записи разговоров между операторами и клиентами, представленный в виде диалогов в текстовом формате. Изучена применимость методов машинного обучения для автоматизации выявления утечек, возникающих в разговоре между оператором и клиентом. Приведены результаты использования данных методов для построения и обучения классификатора: вероятностные (наивный байесовский классификатор), метрические (метод k-ближайших соседей), логические (случайный лес), линейные (метод опорных векторов), методы на основе искусственных нейронных сетей. Рассмотрены различные подходы к построению модели текстов на естественном языке, такие как токенизация (bag of words, n-граммы слов: биграммы и триграммы) и векторизация (one hot encoding). Метод. Предлагаемый алгоритм выявления утечек базируется на применении метода опорных векторов (SVM) и токенизации по биграммам слов. Основные результаты. Полученные результаты демонстрируют, что использование SVM и токенизация по биграммам обеспечивают наиболее высокое качество выявления утечек. Практическая значимость. Результаты исследования могут найти применение при разработке программных систем и комплексов защиты информации, а также для дальнейшего развития методов обработки естественного языка применительно к задачам информационной безопасности.
Ключевые слова: обработка естественного языка, машинное обучение, нейронные сети, комплаенс-риски, инсайдерская информация
Благодарности. Работа выполнена в Университете ИТМО в рамках темы НИР № 50449 «Разработка алгоритмов защиты киберпространства для решения прикладных задач обеспечения кибербезопасности организаций банковской сферы».
Список литературы
Благодарности. Работа выполнена в Университете ИТМО в рамках темы НИР № 50449 «Разработка алгоритмов защиты киберпространства для решения прикладных задач обеспечения кибербезопасности организаций банковской сферы».
Список литературы
1. Nini G., Smith D.C., Sufi A. Creditor control rights and firm investment policy // Journal of Financial Economics. 2009. V. 92. N 3. P. 400–420. doi: 10.1016/j.jfineco.2008.04.008
2. Jaiswal S. Connections and conflicts of interest: investment consultants' recommendations, SSRN. 2018 [Электронный ресурс]. URL: https://ssrn.com/abstract=3106528 (дата обращения: 05.03.2021). doi: 10.2139/ssrn.3106528
3. Jenkinson T., Jones H., Martinez J.V. Picking winners? Investment consultants’ recommendations of fund managers // Journal of Finance. 2016. V. 71. N 5. P. 2333–2370. doi: 10.1111/jofi.12289.
4. Medhat W., Hassan A., Korashy H. Sentiment analysis algorithms and applications: a survey // Ain Shams Engineering Journal. 2014. V. 5. N 4. P. 1093–1113. doi: 10.1016/j.asej.2014.04.011
5. Ghiassi M., Olschimke M., Moon B., Arnaudo P. Automated text classification using a dynamic artificial neural network model // Expert Systems with Applications. 2012. V. 39. N 12. P. 10967–10976. doi: 10.1016/j.eswa.2012.03.027
6. Fuller C.M., Biros D.P., Delen D. An investigation of data and text mining methods for real world deception detection // Expert Systems with Applications. 2011. V. 38. N 7. P. 8392–8398. doi: 10.1016/j.eswa.2011.01.032
7. Батура Т.В. Методы автоматической классификации текстов // Программные продукты и системы. 2017. № 1. С. 85–99. doi: 10.15827/0236-235X.030.1.085-099
8. Алексеева В.А. Использование методов интеллектуального анализа в задачах бинарной классификации // Известия Самарского научного центра РАН. 2014. Т. 16. № 6-2. P. 354–356.
9. Бабаев А.М. Основные принципы обработки естественного языка // Дневник науки. 2019. № 12. С. 14.
10. Zhang Y., Jin R., Zhou Z.-H. Understanding bag-of-words model: a statistical framework // International Journal of Machine Learning and Cybernetics. 2010. V. 1. N 1-4. P. 43–52. doi: 10.1007/s13042-010-0001-0
11. Cappelle B., Depraetere I., Lesuisse M. The necessity modals have to, must, need to, and should: Using n-grams to help identify common and distinct semantic and pragmatic aspects // Constructions and Frames. 2019. V. 11. N 2. P. 220–243. doi: 10.1075/cf.00029.cap
12. Weiss S.M., Indurkhya N., Zhang T., Damerau F.F. Text Mining Predictive Methods for Analyzing Unstructured Information. Springer Science+Business Media, Inc., 2010. XII, 237 p. doi: 10.1007/978-0-387-34555-0
13. Kozhevnikov V.A., Pankratova E.S. Research of the text data vectorization and classification algorithms of machine learning // Theoretical & Applied Science. 2020. N 5. P. 574–585. doi: 10.15863/TAS.2020.05.85.106
14. Canbek G., Temizel T.T., Sagiroglu S., Baykal N. Binary classification performance measures/metrics: A comprehensive visualized roadmap to gain new insights // Proc. 2nd International Conference on Computer Science and Engineering (UBMK). 2017. P. 821–826. doi: 10.1109/UBMK.2017.8093539
15. Koyejo O., Natarajan N., Ravikumar P., Dhillon I.S. Consistent binary classification with generalized performance metrics // Advances in Neural Information Processing Systems. 2014. V. 27. P. 2744–2752.
16. Lee J. Can investors detect managers' lack of spontaneity? Adherence to predetermined scripts during earnings conference calls // Accounting Review. 2016. V. 91. N 1. P. 229–250. doi: 10.2308/accr-51135