НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2016-16-2-295-302
УДК 004.056.5
КОМПЬЮТЕРНАЯ КРИМИНАЛИСТИКА: ИДЕНТИФИКАЦИЯ АВТОРА ИНТЕРНЕТ-ТЕКСТОВ
Читать статью полностью
Ссылка для цитирования: Воробьева А.А. Компьютерная криминалистика: идентификация автора Интернет-текстов // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 2. С. 295–302. doi:10.17586/2226-1494-2016-16-2-295-302
Аннотация
Интернет является уникальной системой с точки зрения его анонимности. Пользователь может получать доступ к созданию и распространению информации анонимно, т.е. вовсе без прохождения процедуры идентификации и ау-тентификации, либо имеет возможность создания неограниченного числа идентификаторов для распространения информации под вымышленными именами, или злоумышленник получает доступ к данным учетной записи пользователя и имеет возможность создания или распространения информации от чужого имени. Все это снижает качество обеспечения информационной безопасности. При информационном обмене в Интернете крайне важным является возможность идентифицировать или аутентифицировать пользователя, определить – является ли пользователь тем, за кого он себя выдает. Существующие методы идентификации пользователей – авторов коротких электронных сообщений на русском языке являются недостаточно эффективными. Возникает задача повышения точности идентификации и аутентификации пользователей – субъектов информационных процессов, размещающих некоторые электронные текстовые сообщения в сети Интернет. В данной работе предложен алгоритм идентификации автора Интернет-текстов, включающий следующие этапы: 1) извлечение идентификационных признаков автора; 2) дискретизация непрерывных признаков; 3) отбор подмножества наиболее информативных признаков; 4) идентификация пользователя – автора сообщения (на основании алгоритма Random Forest). Ранее дискретизация непрерывных признаков в решении задачи идентификации пользователей (авторов сообщений) не применялась, однако она позволяет существенно повысить точность идентификации. Результатом работы являются q наиболее вероятных авторов текста. На основании предложенного алгоритма было разработано специализированное программное обеспечение. Проведенные эксперименты показали, что автор был абсолютно верно идентифицирован системой в 70,5% случаев, пользователь был идентифицирован системой в число трех наиболее вероятных в 90,02% случаев.
Благодарности. Материалы представлены на конференции ISPIT-2015: Информационная безопасность и технологии защиты информации.
Список литературы
1. Гвоздев А.В., Лебедев И.С. Модель анализа информационных возможностей в открытых компьютер-ных системах // Сборник докладов VII международной конференции "Современные проблемы при-кладной информатики". Санкт-Петербург, 2011. С. 45–47.
2. Воробьева А.А. Анализ возможности применения различных лингвистических характеристик для идентификации автора анонимных коротких сообщений в глобальной сети Интернет // Информация и космос. 2014. № 1. C. 42–46.
3. Stamatatos E. A survey of modern authorship attribution methods // Journal of the American Society for Information Science and Technology. 2009. V. 60. N 3. P. 538–556. doi: 10.1002/asi.21001
4. Holmes D.I. The evolution of stylometry in humanities scholarship // Literary and Linguistic Computing. 1998. V. 13. N 3. P. 111–117. doi: 10.1093/llc/13.3.111
5. Abbasi A., Chen H. Applying authorship analysis to extremist-group web forum messages // IEEE Intelligent Systems. 2005. V. 20. N 5. P. 67–75. doi: 10.1109/MIS.2005.81
6. Houvardas J., Stamatatos E. N-gram feature selection for authorship identification // Lecture Notes in Com-puter Science. 2006. V. 4183. P. 77–86.
7. Maitra P., Ghosh S., Das D. Authorship verification: an approach based on random forest // Proc. 6th Confer-ence and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
8. Pacheco M.L., Fernandes K., Porco A. Random forest with increased generalization: a universal background approach for authorship verification // Proc. Conference and Labs of the Evaluation Forum (CLEF 2015). Toulouse, France, 2015.
9. Afroz S. Deception in Authorship Attribution. PhD Thesis. Drexel University, 2013. 104 p.
10. Haj Hassan F.I., Chaurasia M.A. N-gram based text author verification // Proc. International Conference on Innovation and Information Management (ICIIM 2012). Chengdu, China, 2012. V. 36. P. 67–71.
11. Zheng R., Li J., Chen H., Huang Z. A framework for authorship identification of online messages: writing-style features and classification techniques // Journal of the American Society for Information Science and Technology. 2006. V. 57. N 3. P. 378–393. doi: 10.1002/asi.20316
12. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов / В кн. Фоменко А.Т. Новая хронология Греции. Т. 2. Москва, 1995.
13. Khmelev D.V., Tweedie F.J. Using Markov chains for identification of writers // Literary and Linguistic Computing. 2001. V. 16. N 3. P. 299–307. doi: 10.1093/llc/16.3.299
14. Романов А.С. Методика идентификации автора текста на основе аппарата опорных векторов // Доклады ТУСУР. 2009. Т. 1. № 2. С. 36–42.
15. Kira K., Rendell L.A. A practical approach to feature selection // Proc. 9th International Workshop on Ma-chine Learning. 1992. P. 249–256. doi: 10.1016/B978-1-55860-247-2.50037-1
16. Kononenko I. Estimating attributes: analysis and extensions of RELIEF // Lecture Notes in Computer Sci-ence. 1994. V. 784. P. 171–182. doi: 10.1007/3-540-57868-4_57
17. Breiman L. Random forests // Machine Learning. 2001. V. 45. N 1. P. 5–32. doi: 10.1023/A:1010933404324
18. Fatih Amasyali M., Diri B. Automatic Turkish text categorization in terms of author, genre and gender // Lec-ture Notes in Computer Science. 2006. V. 3999. P. 221–226.