DOI: 10.17586/2226-1494-2019-19-6-1058-1063


УДК 004.912

КЛАСТЕРИЗАЦИЯ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СЕМАНТИКО-СИНТАКСИЧЕСКИХ СВЯЗЕЙ СЛОВ

Лапшин С.В., Лебедев И.С., Спивак А.И.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Лапшин С.В., Лебедев И.С., Спивак А.И. Кластеризация текстов с использованием семантико-синтаксических связей слов // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 6. С. 1058–1063. doi: 10.17586/2226-1494-2019-19-6-1058-1063


Аннотация
Предмет исследования. Выполнено исследование метода повышения показателей качества кластеризации текстов на естественном языке. Основное внимание уделено выделению признаков, составляющих математическую модель текстов. Для кластеризации полученного векторного представления текстов использовался метод k-means. Метод. Предложенный аналитический подход основан на использовании семантико-синтаксических признаков кластеризируемых текстов. Выделение признаков проведено с помощью Stanford CoreNLP Toolkit. Некоторые связи между словами текстов в представлении «Enhanced++ Dependencies» вместе со связывающими их словами кодируются. На основании частот их встречаемости в текстах вычисляются значения семантико-синтаксических признаков. Основные результаты. Эксперимент по сравнению показателей качества прототипа, разработанного на основе предложенного метода, и системы кластеризации, на основе статистических признаков, показал, что использование предложенного метода позволяет сократить количество ошибок кластеризации в проведенном эксперименте более чем на 15 %. Практическая значимость. Для получения семантико-синтаксических признаков текстов не требуется предобучение. Рассматриваемый подход может быть использован для повышения показателей качества кластеризации в условиях отсутствия больших корпусов текстов, которые необходимы для предобучения статистических моделей языка на основе «word embeddings».

Ключевые слова: кластеризация текстов, семантико-синтаксические признаки, контекст слов, k-means

Благодарности. Работа выполнена по программе фундаментальных исследований РАН по приоритетным направлениям, определяемым президиумом РАН №2 «Механизмы обеспечения отказоустойчивости современных высокопроизводительных и высоконадежных вычислений».

Список литературы
  1. Xu J., Xu B., Wang P., Zheng S., Tian G., Zhao J., Xu B. Self-taught convolutional neural networks for short text clustering // Neural Networks. 2017. V. 88. P. 22–31. doi: 10.1016/j.neunet.2016.12.008
  2. Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды ИСП РАН. 2017. Т.  29. № 2. С. 161–200. doi: 10.15514/ISPRAS-2017-29(2)-6
  3. Whissell J.S., Clarke C.L.A. Improving document clustering using Okapi BM25 feature weighting // Information Retrieval. 2011. V. 14. N 5. P. 466–487. doi: 10.1007/s10791-011-9163-y
  4. Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. Indexing by latent semantic analysis // Journal of the American Society for Information Science. 1990. V. 41. N 6. P. 391–407. doi: 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
  5. Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 1999). 1999. P. 50–57. doi: 10.1145/312624.312649
  6. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. V. 3. N 4-5. P. 993–1022.
  7. Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. 1st International Conference on Learning Representations (ICLR 2013). 2013.
  8. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // arXiv:1810.04805. 2018.
  9. Staab S., Hotho A. Ontology-based text document clustering // Proc. International Intelligent Information Systems/ Intelligent Information Processing and Web Mining Conference, (IIS: IIPWM’03). 2003. P. 451–452.
  10. Choudhary B., Bhattacharyya P. Text clustering using semantics [Электронный ресурс]. URL: http://vima01220.ethz.ch/CDstore/www2002/poster/79.pdf (дата обращения: 23.10.2019)
  11. Liang S., Yilmaz E., Kanoulas E. Collaboratively tracking interests for user clustering in streams of short texts // IEEE Transactions on Knowledge and Data Engineering. 2019. V. 31. N 2. P. 257–272. doi: 10.1109/TKDE.2018.2832211
  12. Попова С.В., Данилова В.В. Представление документов в задаче кластеризации аннотаций научных текстов // Научно-технический вестник информационных технологий, механики и оптики. 2014. Т. 19. № 1(89). С. 99–107.
  13. Schuster S., Manning C.D. Enhanced english universal dependencies: an improved representation for natural language understanding tasks // Proc. 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016. P. 2371–2378.
  14. Manning C., Surdeanu M., Bauer J., Finkel J., Bethard S.J., McClosky D. The Stanford CoreNLP natural language processing toolkit // Proc. 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2014. P. 55–60. doi: 10.3115/v1/P14-5010


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2019 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика