DOI: 10.17586/2226-1494-2017-17-1-117-128


УДК004.89

ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ ИДЕНТИФИКАЦИИ ИНТЕРНЕТ-ПОЛЬЗОВАТЕЛЕЙ ПО КОРОТКИМ ЭЛЕКТРОННЫМ СООБЩЕНИЯМ

Воробьева А.А.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Воробьева А.А. Отбор информативных признаков для идентификации Интернет-пользователей по коротким электронным сообщениям // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С. 117–128. doi: 10.17586/2226-1494-2017-17-1-117-128

Аннотация

Рассмотрена задача обеспечения идентификации и аутентификации субъектов информационных процессов, протекающих в среде Интернет и реализуемых с помощью коммуникационных средств Интернет-ресурсов по коротким электронным сообщениям (лингвистическая идентификация). Представлена комплексная многоуровневая модель Интернет-пользователя, включающая различные стилистические и лингвистические характеристики электронных сообщений. Сущность предлагаемого решения состоит в том, что из всех идентификационных признаков (лингвистических и стилистических характеристик) в каждой частной задаче идентификации предложено производить динамическое вычисление и отбор наиболее информативных признаков. Предлагаемое решение основано на том факте, что информативность идентификационных признаков отличается для различных пользователей и их групп. Расчет информативности и отбор признаков предложено производить на основе вычисления расстояния по значению признака доk ближайших соседей (алгоритм Relief-f). Проведены эксперименты по тестовым данным с различным количеством сообщений на одного пользователя. Результаты исследований показали, что использование динамического количества признаков, рассчитываемого для каждого набора пользователей, дает повышение точности идентификации в среднем на 4%, что почти на 1% выше, чем при использовании статического набора признаков. Предлагаемое решение наиболее эффективно при малом количестве сообщений одного пользователя.


Ключевые слова: идентификация Интернет-пользователей, лингвистическая идентификация, информационная безопасность

Список литературы
 
1.     Лебедев И.С., Сухопаров М.Е. Методика идентификации авторства текстов коротких сообщений пользователей порталов сети интернет на основе методов математической лингвистики // В мире научных открытий. 2014. № 6.1(54). С. 599–622.
2.     Воробьева А.А., Гвоздев А.В. Идентификация анонимных пользователей Интернет порталов на основании технических и лингвистических характеристик пользователя // Научно-технический вестник механики и оптики. 2014. № 1(89).С. 139–144.
3.     Abbasi A., Chen H. Applying authorship analysis to extremist-group web forum messages // IEEE Intelligent Systems. 2005. V. 20. N 5. P. 67–75. doi: 10.1109/MIS.2005.81
4.     Frommholz I., al-Khateeb H.M., Potthast M., Ghasem Z., Shukla M., Short E. On textual analysis and machine learning for cyberstalking detection // Datenbank-Spektrum. 2016. V. 16. N 2. P. 127–135. doi: 10.1007/s13222-016-0221-x
5.     Rosenblum N., Zhu X., Miller B.P. Who wrote this code? Identifying the authors of program binaries // Lecture Notes in Computer Science. 2011. V. 6879. P. 172–189. doi: 10.1007/978-3-642-23822-2_10 
6.     Iqbal F., Binsalleeh H., Fung B.C.M., Debbabi M. A unified data mining solution for authorship analysis in anonymous textual communications // Information Sciences. 2013. V. 231. P. 98–112. doi: 10.1016/j.ins.2011.03.006
7.     van der Knaap L., Grootjen F.A. Author identification in chatlogs using formal concept analysis // Proc. 19th Belgian-Dutch Conference on Artificial Intelligence (BNAIC2007). 2007. P. 181–188.
8.     Yule G.U. On sentence-length as a statistical characteristic of style in prose, with application to two cases of disputed authorship // Biometrika. 1939. V. 30. N 3/4. P. 363–390. doi: 10.2307/2332655 
9.     Williams C.B. A note on the statistical analysis of sentence-length as a criterion of literary style // Biometrika. 1940. V. 31. N 3/4. P. 356–361. doi: 10.2307/2332615 
10.  Mendenhall Т.С. A mechanical solution of a literary problem // Popular Science Monthly. 1901. V. 60.
11.  Greg W.W., Yule G.U. The statistical study of literary vocabulary // The Modern Language Review. 1944. V. 39. N 3. P. 291. doi: 10.2307/3717870 
12.  Морозов Н.А. Лингвистические спектры: Средство для отличения плагиатов от истинных произведений того или другого известного автора: Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук. 1915. Т. 20(7).С. 93–127.
13.  Mosteller F., Wallace D. Inference and Disputed Authorship: The Federalist. Addison-Wesley, 1964. 287 p.
14.  Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов / В кн. Фоменко А.Т. Новая хронология Греции. Т. 2. М.: МГУ, 1995.
15.  Potthast M., Braun S., Buz T., Duffhauss F., Friedrich F. et al. Who wrote the web? Revisiting influential author identification research applicable to information retrieval // Lecture Notes in Computer Science. 2016. V. 9626. P. 393–407. doi: 10.1007/978-3-319-30671-1_29
16.  Haj Hassan F.I., Chaurasia M.A. N-gram based text author verification // Proc. Int. Conf. on Innovation and Information Management (ICIIM). Chengdu, China, 2012. V. 36. P. 67–71.
17.  Corney M., Anderson A., Mohay G., de Vel. O. Identifying the authors of suspect email. 2001. Режим доступа: http://eprints.qut.edu.au/8021/1/CompSecurityPaper.pdf (дата обращения: 22.07.2016).
18.  de Vel O., Anderson A., Corney M., Mohay G. Mining e-mail content for author identification forensics // ACM SIGMOD Record. 2001. V. 30. N 4. P. 55–64. doi: 10.1145/604264.604272
19.  Zheng R., Li J., Huang Z., Chen H. A Framework for authorship identification of online messages: writing style features and classification techniques // Journal of the American Society for Information Science and Technology. 2006. V. 57. N 3. P. 378–393. doi: 10.1002/asi.20316 
20.  Luyckx K., Daelemans W. Personae, a corpus for author and personality prediction from text // Proc. LREC.2008. V. L08-1. P. 2981–2987.
21.  Романов А.С. Методика и программный комплекс для идентификации автора неизвестного текста: автореф. … дисс.. канд. тех. наук. Томск, 2010. 26 с.
22.  Сухопаров М.Е. Методика идентификации пользователей порталов сети интернет на основе методов математической лингвистики: автореф. … дисс. канд. тех. наук. СПб., 2015. 18 с.
23.  Afroz S. Deception in Authorship Attribution. PhD thesis. Drexel University, 2013.
24.  Yang M., Chow K.P. Authorship attribution for forensic investigation with thousands of authors // Proc. 29th IFIP Advances in Information and Communication Technology. 2014. V. 428. P. 339–350.doi: 10.1007/978-3-642-55415-5_28 
25.  Кузнецов А.В. Письменная разговорная речь в онлайн-коммуникации // Молодой ученый. 2011. № 3–2. С. 24–26.
26.  Сигачёв А.С. Модель текста в виде набора числовых признаков // Интеллектуальные технологии и системы. 2006. №7.
27.  Vorobeva A.A. List of functional words used for web user (author) identification. 2016.
28.  Vorobeva A.A. Examining the performance of classification algorithms for imbalanced data sets in web author identification // Proc. 18th Conference of Open Innovations Association. 2016. P. 385–390. doi: 10.1109/fruct-ispit.2016.7561554 
29.  Houvardas J., Stamatatos E. N-gram feature selection for authorship identification // Lecture Notes in Computer Science. 2006. V. 4183. P. 77–86. doi: 10.1007/11861461_10 
30.  Kononenko I. Estimating attributes: analysis and extensions of RELIEF // Lecture Notes in Computer Science. 1994. V. 784. P. 171–182. doi: 10.1007/3-540-57868-4_57
31.  Vorobeva A.A. Forensic linguistics: automatic web author identification // Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2016. V. 16. N 2. P. 295–302. doi: 10.17586/2226-1494-2016-16-2-295-302
32.  Воробьева А.А., Пантюхин И.С., Швед Д.В. Средство для создания баз данных сообщений пользователей порталов сети Интернет. Свидетельство о регистрации программ для ЭВМ №2013661841. Опубл. 17.12.2013.
33.  Воробьева А.А., Пантюхин И.С., Швед Д.В. Программный компонент лингвистического анализа и обработки текста для идентификации автора. Свидетельство о регистрации программы для ЭВМ №2014611567. Опубл. 5.02.2014.
34.  Vorobeva A.A. 100 most informative features. 2016. Режим доступа: https://www.researchgate.net/publication/311510278_100_Most_informative_features (дата обращения: 08.12.2016). doi: 10.13140/RG.2.2.10289.58724


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика