doi: 10.17586/2226-1494-2016-16-6-1096-1102


УДК 20.19.27

СТАТИСТИЧЕСКИЙ МЕТОД ИЗВЛЕЧЕНИЯ ТЕРМИНОВ ИЗ КИТАЙСКИХ ТЕКСТОВ БЕЗ СЕГМЕНТАЦИИ ФРАЗ

Бессмертный И.А., Юй Чуцяо, Пенюй М.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования: Бессмертный И.А., Юй Чуцяо, Ма Пенюй. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 6. С. 1096–1102.doi: 10.17586/2226-1494-2016-16-6-1096-1102

Аннотация

Работа посвящена проблемеавтоматического извлечения знаний из естественно-языковых текстов (textmining). Одной из первоочередных задач в рамках данной проблемы является формирование тезауруса предметной области. Существуют достаточно апробированные статистические методы извлечения терминов для алфавитных языков, например, латентный семантический анализ. Применение данных методов для иероглифического письма сопряжено с проблемой, обусловленной отсутствием в таких языках пробелов между словами. Задача сегментации предложений на иероглифических языках обычно решается либо на основе словарей, либо статистическими методами, в частности, с использованием метода взаимной информации. Методы сегментации предложений, как и методы извлечения терминов по отдельности, не обладают 100%-ой точностью и полнотой, а их последовательное применение только увеличивает процент ошибок. Целью данной работы является повышение полноты и точности извлечения терминов предметной области из иероглифических текстов. Предлагаемый метод состоит в выявлении повторяющихся последовательностей длиной от двух до четырех символов в каждом предложении и соотнесения частот встречаемости этих последовательностей в целевой и контрастной коллекциях документов. В результате проведенного исследования было установлено, что простое ранжирование всех возможных последовательностей символов позволяет удовлетворительно выявлять только наиболее часто используемые термины. Фильтрация последовательностей символов по соотношению их частот в целевой и контрастной коллекциях позволила надежно извлекать часто используемые термины и удовлетворительно – термины с низкой частотой. В работе приведены результаты извлечения терминов предметной области «сетевые технологии» из текста на китайском языке, где в качестве контрастной коллекции использовался набор статей из газеты «Женьминь жибао», в результате чего получены вполне удовлетворительные результаты.


Ключевые слова: обработка естественно-языковых текстов, мешок слов, китайский язык, сегментация слов, извлечение терминов, тезаурус предметной области

Список литературы

1. Joachims T. Learning to Classify Text Using Support Vector Machines: Methods, Theory and Algorithms. Kluwer Academic Publishers, 2002. 205 p.
2. Wallach H.M. Topic modeling: beyond bag-of-words // Proc. 23rd Int. Conf. on Machine Learning. Pittsburgh, USA, 2006. P. 977–984.
3. Nugumanova A., Bessmertny I. Applying the latent semantic analysis to the issue of automatic extraction of collocations from the domain texts // Communications in Computer and Information Science. 2013. V. 394. P. 92–101. doi: 10.1007/978-3-642-41360-5_8
4. Тайваньские принципы сегментации текстов [Электронный ресурс] // http://ip194097.ntcu.edu.tw/TG/CompLing/hunsu/hunsu.htm (дата обращения 28.10.2016).
5. Xue N. Chinese word segmentation as character tagging // Computational Linguistics and Chinese Language Processing. 2003. V. 8. N 1. P. 29–48.
6. Zeng D., Wei D., Chau M., Wang F. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontiers. 2011. V. 13. N 1. P. 115–125. doi: 0.1007/s10796-010-9278-5
7. Huang Lei, Wu Yan-Peng, Zhu Qun-Feng. Research and improvement of TFIDF feature weighting method // Computer Science. 2014. V. 41. N 6. P. 204–208.
8. Li Xiaochao, Zhao Shang, Lao Yan, Chen Min, Liu Mengmeng. Statistics law of same frequency words in Chinese texts and its application to keywords extraction // Application Research of Computers. V. 33. N 4. P. 1007–1012.
9. Conrado M.S., Pardo T.A.S., Rezende S.O. A machine learning approach to automatic term extraction using a rich feature set // Proc. NAACL HLT Student Research Workshop. Atlanta, USA, 2013. P. 16–23.
10. Ahmad K., Gillam L., Tostevin L. University of surrey participation in TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg, USA, 1999. P. 717.
11. Penas A., Verdejo F., Gonzalo J. Corpus-based terminology extraction applied to information access // Proceedings of Corpus Linguistics. 2001. V. 2001. P. 458–465.
12. Kim S.N., Baldwin T., Kan M.-Y. An unsupervised approach to domain-specific term extraction // Proc. Australasian Language Technology Association Workshop. 2009. P. 94–98.
13. Basili R. A contrastive approach to term extraction // Proc. 4th Terminological and Artificial Intelligence Conference (TIA2001). Nancy, France, 2001.
14. Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies using domain prevalence and tendency // Proc. 6th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. V. 70. P. 47–54.
15. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // Proc. 14th Int. Conf. on Machine Learning (ICML). 1997. V. 97. P. 412–420.
16. Астраханцев Н.А. Автоматическое извлечение терминов коллекции предметной области с помощью Википедии // Труды ИСП РАН. 2014. Т. 26. № 4. С. 7–20. doi: 10.15514/ISPRAS-2014-26(4)-1
17. Нугуманова А.Б., Бессмертный И.А., Пецина П., Байбурин Е.М. Обогащение модели Bag-of-Words семантическими связями для повышения качества классификации текстов предметной области // Программные продукты и системы. 2016. № 2. С. 89–99. doi: 10.15827/0236-235X.114.089-099
 



Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика