Язык статьи - русский
Ссылка для цитирования: Бессмертный И.А., Нугуманова А.Б., Мансурова М.Е., Байбурин Е.М. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С.81–91. doi: 10.17586/2226-1494-2017-17-1-81-91
Аннотация
Рассмотрена проблема автоматического извлечения терминов предметной области из корпуса документов с привлечением контрастной коллекции. Существующие контрастные методы хорошо справляются с часто используемыми терминами, но работают плохо с редкими терминами, что приводит к обеднению словаря. Среди известных статистических методов оценка точечной взаимной информации хорошо выявляет редкие термины, однако при этом извлекается большое число слов, не относящихся к терминам. Для извлечения редких терминов в работе предложен подход, состоящий в использовании точечной взаимной информации с последующей фильтрацией кандидатов в термины по критерию совместной встречаемости с другими терминами-кандидатами. Для устранения шумов и выявления сильных связей формируется матрица «документы-на-термины», которая подвергается сингулярному разложению. После этого осуществляется переход к матрице «термины-на-термины», отражающей силу связей между словами. Предлагаемый подход апробирован на коллекции документов предметной области «Геология». В качестве контрастной коллекции использованы публикации из разделов «Политика», «Культура», «Экономика» и «Происшествия» на новостных Интернет-сайтах. Результаты эксперимента продемонстрировали работоспособность метода для успешного извлечения редких терминов.
Ключевые слова: контрастное извлечение терминов, терминологичность, взаимная информация, семантические связи, извлечение редких терминов
Благодарности. Работа содержит материалы исследований, частично поддержанных грантом Минобрнауки Республики Казахстан 5033/ГФ4 «Разработка интеллектуальной высокопроизводительной информационно-аналитической поисковой системы обработки слабоструктурированных данных».
Список литературы
1. Weeber M., Vos R., Baayen R.H. Extracting the lowest-frequency words: pitfalls and possibilities // Computational Linguistics. 2000. V. 26. N 3. P. 301–317. doi:
10.1162/089120100561719
2. Astrakhantsev N.A., Fedorenko D.G., Turdakov D.Y. Methods for automatic term recognition in domain-specific text collections: a survey // Programming and Computer Software. 2015. V. 41. N 6. P. 336–349. doi:
10.1134/s036176881506002x
3. Heylen K., De Hertog D. Automatic term extraction / In: Handbook of Terminology. Amsterdam, 2014. V. 1.
4. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // Proc. 14th Int. Conf. on Machine Learning (ICML). 1997. V. 97. P. 412–420.
5. БраславскийП.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Сборник трудов Международной конференции Диалог¢2006. Москва, 2006. С. 88–94.
6. Kim S.N., Cavedon L. Classifying domain-specific terms using a dictionary // Proc. Australasian Language Technology Association Workshop 2011. 2011. P. 57.
7. Conrado M.S., Pardo T.A.S., Rezende S.O. A machine learning approach to automatic term extraction using a rich feature set // Proc. NAACL HLT Student Research Workshop. Atlanta, USA, 2013. P. 16–23.
8. Ahmad K., Gillam L., Tostevin L. University of surrey participation in TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg, USA,1999. P. 717.
9. Gillam L., Tariq M., Ahmad K. Terminology and the construction of ontology // Terminology. 2005. V. 11. N 1. P. 55–81.
10. Penas A., Verdejo F., Gonzalo J. Corpus-based terminology extraction applied to information access // Proceedings of Corpus Linguistics. 2001. V. 2001. P. 458–465.
11. Kim S.N., Baldwin T., Kan M.-Y. An unsupervised approach to domain-specific term extraction // Proc. Australasian Language Technology Association Workshop. 2009. P. 94–98.
12. Basili R. A contrastive approach to term extraction // Proc. 4th Terminological and Artificial Intelligence Conference (TIA2001). Nancy, France, 2001.
13. Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies using domain prevalence and tendency // Proc. 6th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. V. 70. P. 47–54.
14. Sclano F., Velardi P. Termextractor: a web application to learn the shared terminology of emergent web communities / In : Enterprise Interoperability II. Springer, 2007. P. 287–290. doi:
10.1007/978-1-84628-858-6_32
15. Lopes L., Fernandes P., Vieira R. Estimating term domain relevance through term frequency, disjoint corpora frequency-tf-dcf // Knowledge-Based Systems. 2016. V. 97. P. 237–249. doi:
10.1016/j.knosys.2015.12.015
16. Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies in a probabilistic framework // Proc. 6th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. V. 70. P. 55–63.
17. Prelov V. Mutual information of several random variables and its estimation via variation // Problems of Information Transmission. 2009. V. 45. N 4. P. 295–308. doi:
10.1134/s0032946009040012
18. Hasan K.S., Ng V. Automatic keyphrase extraction: a survey of the state of the art // Proc. 52
nd Annual Meeting of the Association for Computational Linguistics. 2014. V. 1. P. 1262–1273. doi:
10.3115/v1/p14-1119
19. Matsuo Y., Ishizuka M. Keyword extraction from a single document using word co-occurrence statistical information // International Journal on Artificial Intelligence Tools. 2004. V. 13. N 1. P. 157–169. doi:
10.1142/s0218213004001466
20. Slonim N., Tishby N. The power of word clusters for text classification // Proc. 23rd European Colloquium on Information Retrieval Research. 2001. V. 1.
21. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika. 1936. V. 1. N 3. P. 211–218. doi:
10.1007/bf02288367
22. Общая геология / Под ред. А.К. Соколовского. М.: КДУ, 2006. Т. 1. 448 с.