Меню
Публикации
2024
2023
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008
2007
2006
2005
2004
2003
2002
2001
Главный редактор
НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
Партнеры
doi: 10.17586/2226-1494-2019-19-6-1058-1063
УДК 004.912
КЛАСТЕРИЗАЦИЯ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СЕМАНТИКО-СИНТАКСИЧЕСКИХ СВЯЗЕЙ СЛОВ
Читать статью полностью
Язык статьи - русский
Ссылка для цитирования:
Аннотация
Ссылка для цитирования:
Лапшин С.В., Лебедев И.С., Спивак А.И. Кластеризация текстов с использованием семантико-синтаксических связей слов // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 6. С. 1058–1063. doi: 10.17586/2226-1494-2019-19-6-1058-1063
Аннотация
Предмет исследования. Выполнено исследование метода повышения показателей качества кластеризации текстов на естественном языке. Основное внимание уделено выделению признаков, составляющих математическую модель текстов. Для кластеризации полученного векторного представления текстов использовался метод k-means. Метод. Предложенный аналитический подход основан на использовании семантико-синтаксических признаков кластеризируемых текстов. Выделение признаков проведено с помощью Stanford CoreNLP Toolkit. Некоторые связи между словами текстов в представлении «Enhanced++ Dependencies» вместе со связывающими их словами кодируются. На основании частот их встречаемости в текстах вычисляются значения семантико-синтаксических признаков. Основные результаты. Эксперимент по сравнению показателей качества прототипа, разработанного на основе предложенного метода, и системы кластеризации, на основе статистических признаков, показал, что использование предложенного метода позволяет сократить количество ошибок кластеризации в проведенном эксперименте более чем на 15 %. Практическая значимость. Для получения семантико-синтаксических признаков текстов не требуется предобучение. Рассматриваемый подход может быть использован для повышения показателей качества кластеризации в условиях отсутствия больших корпусов текстов, которые необходимы для предобучения статистических моделей языка на основе «word embeddings».
Ключевые слова: кластеризация текстов, семантико-синтаксические признаки, контекст слов, k-means
Благодарности. Работа выполнена по программе фундаментальных исследований РАН по приоритетным направлениям, определяемым президиумом РАН №2 «Механизмы обеспечения отказоустойчивости современных высокопроизводительных и высоконадежных вычислений».
Список литературы
Благодарности. Работа выполнена по программе фундаментальных исследований РАН по приоритетным направлениям, определяемым президиумом РАН №2 «Механизмы обеспечения отказоустойчивости современных высокопроизводительных и высоконадежных вычислений».
Список литературы
- Xu J., Xu B., Wang P., Zheng S., Tian G., Zhao J., Xu B. Self-taught convolutional neural networks for short text clustering // Neural Networks. 2017. V. 88. P. 22–31. doi: 10.1016/j.neunet.2016.12.008
- Пархоменко П.А., Григорьев А.А., Астраханцев Н.А. Обзор и экспериментальное сравнение методов кластеризации текстов // Труды ИСП РАН. 2017. Т. 29. № 2. С. 161–200. doi: 10.15514/ISPRAS-2017-29(2)-6
- Whissell J.S., Clarke C.L.A. Improving document clustering using Okapi BM25 feature weighting // Information Retrieval. 2011. V. 14. N 5. P. 466–487. doi: 10.1007/s10791-011-9163-y
- Deerwester S., Dumais S.T., Furnas G.W., Landauer T.K., Harshman R. Indexing by latent semantic analysis // Journal of the American Society for Information Science. 1990. V. 41. N 6. P. 391–407. doi: 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
- Hofmann T. Probabilistic latent semantic indexing // Proc. of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 1999). 1999. P. 50–57. doi: 10.1145/312624.312649
- Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet allocation // Journal of Machine Learning Research. 2003. V. 3. N 4-5. P. 993–1022.
- Mikolov T., Chen K., Corrado G., Dean J. Efficient estimation of word representations in vector space // Proc. 1st International Conference on Learning Representations (ICLR 2013). 2013.
- Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // arXiv:1810.04805. 2018.
- Staab S., Hotho A. Ontology-based text document clustering // Proc. International Intelligent Information Systems/ Intelligent Information Processing and Web Mining Conference, (IIS: IIPWM’03). 2003. P. 451–452.
- Choudhary B., Bhattacharyya P. Text clustering using semantics [Электронный ресурс]. URL: http://vima01220.ethz.ch/CDstore/www2002/poster/79.pdf (дата обращения: 23.10.2019)
- Liang S., Yilmaz E., Kanoulas E. Collaboratively tracking interests for user clustering in streams of short texts // IEEE Transactions on Knowledge and Data Engineering. 2019. V. 31. N 2. P. 257–272. doi: 10.1109/TKDE.2018.2832211
- Попова С.В., Данилова В.В. Представление документов в задаче кластеризации аннотаций научных текстов // Научно-технический вестник информационных технологий, механики и оптики. 2014. Т. 19. № 1(89). С. 99–107.
- Schuster S., Manning C.D. Enhanced english universal dependencies: an improved representation for natural language understanding tasks // Proc. 10th International Conference on Language Resources and Evaluation (LREC 2016). 2016. P. 2371–2378.
- Manning C., Surdeanu M., Bauer J., Finkel J., Bethard S.J., McClosky D. The Stanford CoreNLP natural language processing toolkit // Proc. 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2014. P. 55–60. doi: 10.3115/v1/P14-5010