Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2018-18-3-447-456
УДК 004.89
МЕЖСАЙТОВАЯ ЛИНГВИСТИЧЕСКАЯ ИДЕНТИФИКАЦИЯ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования: Воробьева А.А., Позволенко В.А., Коробицына А.С., Шарафиев А.А. Межсайтовая лингвистическая идентификация интернет-пользователей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 3. С. 447–456. doi: 10.17586/2226-1494-2018-18-3-447-456
Аннотация
Ссылка для цитирования: Воробьева А.А., Позволенко В.А., Коробицына А.С., Шарафиев А.А. Межсайтовая лингвистическая идентификация интернет-пользователей // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 3. С. 447–456. doi: 10.17586/2226-1494-2018-18-3-447-456
Аннотация
Исследованы вопросымежсайтовой лингвистической идентификации пользователей интернет-ресурсов по коротким электронным сообщениям, полученным из нескольких источников (сайтов, средств онлайн-коммуникации). Рассмотрена возможность идентификации пользователя одного интернет-ресурса по его сообщениям на другом интернет-ресурсе. Определена возможность формирования единого признакового пространства для сообщений, полученных из различных источников, обеспечивающая достаточную точность лингвистической идентификации. Показано, что существует стилистическая разница между текстами сообщений, созданными одним пользователем, но с использованием различных средств коммуникации.Рассмотрены две задачи межсайтовой идентификации:
1) идентификация по смешанным данным – обучающая и тестовая выборки сформированы из сообщений, полученных из нескольких источников (сайтов); 2) разделенные источники – обучающая выборка сформирована из сообщений одного источника, тестовая из сообщений другого источника.Результаты экспериментов показали, что при обучении на смешанных данных достоверность идентификации составляет 0,82, при обучении на данных различных источников достоверность идентификации – 0,74. Сделаны выводы, что существует стилистическая разница между текстами сообщений, созданными одним пользователем, но с использованием различных средств коммуникации.Но в то же времясуществует возможность сформировать единое признаковое пространство для сообщений, полученных из различных источников, обеспечивающее достаточную точность лингвистической идентификации
Ключевые слова: идентификация интернет-пользователей, лингвистическая идентификация, межсайтовая идентификация.
Список литературы
Список литературы
1. Chen C., Wu K., Srinivasan V., Zhang X. Battling the internet water army: detection of hidden paid posters // Proc. IEEE/ACM Int. Conf. on Advances in Social Networks Analysis and Mining (ASONAM). Niagara Falls, Canada, 2013. P. 116–120. doi: 10.1145/2492517.2492637
2. Лебедев И.С., Борисов Ю.Б. Анализ текстовых сообщений в системах мониторинга информационной безопасности // Информационно-управляющие системы. 2011. № 2.
С. 37–43.
С. 37–43.
3. Катаева В.А., Пантюхин И.С., Юрин И.В. Метод оценки степени связанности профилей пользователей социальной сети на основе открытых данных // Открытое образование. 2017. Т. 21. № 6. С. 14–22.doi: 10.21686/1818-4243-2017-6-14-22
4. Воробьева А.А. Отбор информативных признаков для идентификации интернет-пользователей по коротким электронным сообщениям // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 117–128.doi: 10.17586/2226-1494-2017-17-1-117-128
5. Сидорова М.Ю. Интернет-лингвистика: русский язык. Межличностное общение. М.: 1989.ру, 2006. 193 с.
6. Schwartz M.B.An Examination of Cross-Domain Authorship Attribution Techniques. CUNY Academic Works. 2016.32 p.
7. Overdorf R., Greenstadt R. Blogs, twitter feeds, and reddit comments: cross-domain authorship attribution // Proceedings on Privacy Enhancing Technologies. 2016. N 3. P. 155–171.
8. Воробьева А.А. Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет // Информация и космос. 2014. № 1. С. 42–46.
9. Zheng R., Li J., Chen H., Huang Z. A framework for authorship identification of online messages: writing-style features and classification techniques // Journal of the American Society for Information Science and Technology. 2006. V. 57. N 3. P. 378–393. doi: 10.1002/asi.20316
10. Воробьева А.А. Методика идентификации интернет-пользователя на основе стилистических и лингвистических характеристик коротких электронных сообщений // Информация и космос. 2017. № 1. С. 127–130.
11. Stamatatos E.A survey of modern authorship attribution methods // Journal of the American Society for information Science and Technology. 2009. V. 60. N 3. P. 538–556. doi: 10.1002/asi.21001
12. Нугуманова А.Б., Бессмертный И.А., Пецина П., Байбурин Е.М. Обогащение модели Bag-of-Words семантическими связями для повышения качества классификации текстов предметной области // Программные продукты и системы. 2016. № 2. С. 89–99.doi: 10.15827/0236-235X.114.089-099
13. Houvardas J., Stamatatos E. N-gram feature selection for authorship identification // Lecture Notes in Computer Science. 2006. V. 4183. P. 77–86.
14. Gomez-Adorno H. et al. Document embeddings learned on various types of n-grams for cross-topic authorship attribution // Computing. 2018. P. 1–16. doi: 10.1007/s00607-018-0587-8
15. Maitra P., Ghosh S., Das D. Authorship verification: an approach based on random forest // Proc. 6th Conference and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
16. Pacheco M.L., Fernandes K., Porco A. Random forest with increased generalization: a universal background approach for authorship verification // Proc. Conference and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
17. Vorobeva A.A. Influence of features discretization on accuracy of random forest classifier for web user identification // Proc. 20th Conf. on Open Innovations Association (FRUCT). St. Petersburg, Russia, 2017. P. 498–504. doi: 10.23919/FRUCT.2017.8071354
18. Brownlee J. Classification Accuracy is Not Enough: More Performance Measures You Can Use [Электронныйресурс]. 2014. URL: http://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/(дата обращения 20.03.2018).
Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов / В кн. Фоменко А.Т. Новая хронология Греции. Т. 2. М.: МГУ, 1995