doi: 10.17586/2226-1494-2018-18-3-447-456


УДК 004.89

МЕЖСАЙТОВАЯ ЛИНГВИСТИЧЕСКАЯ ИДЕНТИФИКАЦИЯ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ

Воробьева А.А., Позволенко В.А., Коробицына А.С., Шарафиев А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Воробьева А.А., Позволенко В.А., Коробицына А.С., Шарафиев А.А. Межсайтовая лингвистическая идентификация интернет-пользователей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 3. С. 447–456. doi: 10.17586/2226-1494-2018-18-3-447-456

Аннотация
 Исследованы вопросымежсайтовой лингвистической идентификации пользователей интернет-ресурсов по коротким электронным сообщениям, полученным из нескольких источников (сайтов, средств онлайн-коммуникации).  Рассмотрена возможность идентификации пользователя одного интернет-ресурса по его сообщениям на другом интернет-ресурсе. Определена возможность формирования единого признакового пространства для сообщений, полученных из различных источников, обеспечивающая достаточную точность лингвистической идентификации. Показано, что существует стилистическая разница между текстами сообщений, созданными одним пользователем, но с использованием различных средств коммуникации.Рассмотрены две задачи межсайтовой идентификации:
1) идентификация по смешанным данным – обучающая и тестовая выборки сформированы из сообщений, полученных из нескольких источников (сайтов); 2) разделенные источники – обучающая выборка сформирована из сообщений одного источника, тестовая из сообщений другого источника.Результаты экспериментов показали, что при обучении на смешанных данных достоверность идентификации составляет 0,82, при обучении на данных различных источников достоверность идентификации – 0,74. Сделаны выводы, что существует стилистическая разница между текстами сообщений, созданными одним пользователем, но с использованием различных средств коммуникации.Но в то же времясуществует возможность сформировать единое признаковое пространство для сообщений, полученных из различных источников, обеспечивающее достаточную точность лингвистической идентификации

Ключевые слова: идентификация интернет-пользователей, лингвистическая идентификация, межсайтовая идентификация.

Список литературы
1.      Chen C., Wu K., Srinivasan V., Zhang X. Battling the internet water army: detection of hidden paid posters // Proc. IEEE/ACM Int. Conf. on Advances in Social Networks Analysis and Mining (ASONAM). Niagara Falls, Canada, 2013. P. 116–120. doi: 10.1145/2492517.2492637
2.      Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности // Информационно-управляющие системы. 2011. № 2.
С.  37–43.
3.      Катаева В.А., Пантюхин И.С., Юрин И.В. Метод оценки степени связанности профилей пользователей социальной сети на основе открытых данных // Открытое образование. 2017. Т. 21. № 6. С. 14–22.doi: 10.21686/1818-4243-2017-6-14-22
4.      Воробьева А.А. Отбор информативных признаков для идентификации интернет-пользователей по коротким электронным сообщениям // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 117–128.doi: 10.17586/2226-1494-2017-17-1-117-128
5.      Сидорова М.Ю. Интернет-лингвистика: русский язык. Межличностное общение. М.: 1989.ру, 2006. 193 с.
6.      Schwartz M.B.An Examination of Cross-Domain Authorship Attribution Techniques. CUNY Academic Works. 2016.32 p.
7.      Overdorf R., Greenstadt R. Blogs, twitter feeds, and reddit comments: cross-domain authorship attribution // Proceedings on Privacy Enhancing Technologies. 2016. N 3. P. 155–171.
8.      Воробьева А.А. Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет // Информация и космос. 2014. № 1. С. 42–46.
9.      Zheng R., Li J., Chen H., Huang Z. A framework for authorship identification of online messages: writing-style features and classification techniques // Journal of the American Society for Information Science and Technology. 2006. V. 57. N 3. P. 378–393. doi: 10.1002/asi.20316
10.   Воробьева А.А. Методика идентификации интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений // Информация и космос. 2017. № 1. С. 127–130.
11.   Stamatatos E.A survey of modern authorship attribution methods // Journal of the American Society for information Science and Technology. 2009. V. 60. N 3. P. 538–556. doi: 10.1002/asi.21001
12.   Нугуманова А.Б., Бессмертный И.А., Пецина П., Байбурин Е.М. Обогащение модели Bag-of-Words семантическими связями для повышения качества классификации текстов предметной области // Программные продукты и системы. 2016. № 2. С. 89–99.doi: 10.15827/0236-235X.114.089-099
13.   Houvardas J., Stamatatos E. N-gram feature selection for authorship identification // Lecture Notes in Computer Science. 2006. V. 4183. P. 77–86.
14.   Gomez-Adorno H. et al. Document embeddings learned on various types of n-grams for cross-topic authorship attribution // Computing. 2018. P. 1–16. doi: 10.1007/s00607-018-0587-8
15.   Maitra P., Ghosh S., Das D. Authorship verification: an approach based on random forest // Proc. 6th Conference and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
16.   Pacheco M.L., Fernandes K., Porco A. Random forest with increased generalization: a universal background approach for authorship verification // Proc. Conference and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
17.   Vorobeva A.A. Influence of features discretization on accuracy of random forest classifier for web user identification // Proc. 20th Conf. on Open Innovations Association (FRUCT). St. Petersburg, Russia, 2017. P. 498–504. doi: 10.23919/FRUCT.2017.8071354
18.   Brownlee J. Classification Accuracy is Not Enough: More Performance Measures You Can Use [Электронныйресурс]. 2014. URL: http://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/(дата обращения 20.03.2018).
Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов / В кн. Фоменко А.Т. Новая хронология Греции. Т. 2. М.: МГУ, 1995


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика