МЕТОД КОНТРАСТНОГО ИЗВЛЕЧЕНИЯ РЕДКИХ ТЕРМИНОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Бессмертный Игорь Александрович, Нугуманова Алия Багдатовна, Мансурова Мадина Есимхановна, Байбурин Ержан Мухаметкалиевич

doi:10.17586/2226-1494-2017-17-1-81-91

2017 , ТОМ 17, НОМЕР 1 ( январь-февраль )

ISSN 2226-1494 (print), ISSN 2500-0373 (online)

Меню

Публикации

Главный редактор

НИКИФОРОВ
Владимир Олегович
д.т.н., профессор

Партнеры

doi: 10.17586/2226-1494-2017-17-1-81-91

УДК 20.19.27

МЕТОД КОНТРАСТНОГО ИЗВЛЕЧЕНИЯ РЕДКИХ ТЕРМИНОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Бессмертный И.А., Нугуманова А.Б., Мансурова М.Е., Байбурин Е.М.

Читать статью полностью

Язык статьи - русский

Ссылка для цитирования: Бессмертный И.А., Нугуманова А.Б., Мансурова М.Е., Байбурин Е.М. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. 2017. Т. 17. № 1. С.81–91. doi: 10.17586/2226-1494-2017-17-1-81-91

Аннотация

Рассмотрена проблема автоматического извлечения терминов предметной области из корпуса документов с привлечением контрастной коллекции. Существующие контрастные методы хорошо справляются с часто используемыми терминами, но работают плохо с редкими терминами, что приводит к обеднению словаря. Среди известных статистических методов оценка точечной взаимной информации хорошо выявляет редкие термины, однако при этом извлекается большое число слов, не относящихся к терминам. Для извлечения редких терминов в работе предложен подход, состоящий в использовании точечной взаимной информации с последующей фильтрацией кандидатов в термины по критерию совместной встречаемости с другими терминами-кандидатами. Для устранения шумов и выявления сильных связей формируется матрица «документы-на-термины», которая подвергается сингулярному разложению. После этого осуществляется переход к матрице «термины-на-термины», отражающей силу связей между словами. Предлагаемый подход апробирован на коллекции документов предметной области «Геология». В качестве контрастной коллекции использованы публикации из разделов «Политика», «Культура», «Экономика» и «Происшествия» на новостных Интернет-сайтах. Результаты эксперимента продемонстрировали работоспособность метода для успешного извлечения редких терминов.

Ключевые слова: контрастное извлечение терминов, терминологичность, взаимная информация, семантические связи, извлечение редких терминов

Благодарности. Работа содержит материалы исследований, частично поддержанных грантом Минобрнауки Республики Казахстан 5033/ГФ4 «Разработка интеллектуальной высокопроизводительной информационно-аналитической поисковой системы обработки слабоструктурированных данных».

Список литературы

1. Weeber M., Vos R., Baayen R.H. Extracting the lowest-frequency words: pitfalls and possibilities // Computational Linguistics. 2000. V. 26. N 3. P. 301–317. doi: 10.1162/089120100561719

2. Astrakhantsev N.A., Fedorenko D.G., Turdakov D.Y. Methods for automatic term recognition in domain-specific text collections: a survey // Programming and Computer Software. 2015. V. 41. N 6. P. 336–349. doi: 10.1134/s036176881506002x

3. Heylen K., De Hertog D. Automatic term extraction / In: Handbook of Terminology. Amsterdam, 2014. V. 1.

4. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // Proc. 14^th Int. Conf. on Machine Learning (ICML). 1997. V. 97. P. 412–420.

5. БраславскийП.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Сборник трудов Международной конференции Диалог¢2006. Москва, 2006. С. 88–94.

6. Kim S.N., Cavedon L. Classifying domain-specific terms using a dictionary // Proc. Australasian Language Technology Association Workshop 2011. 2011. P. 57.

7. Conrado M.S., Pardo T.A.S., Rezende S.O. A machine learning approach to automatic term extraction using a rich feature set // Proc. NAACL HLT Student Research Workshop. Atlanta, USA, 2013. P. 16–23.

8. Ahmad K., Gillam L., Tostevin L. University of surrey participation in TREC8: weirdness indexing for logical document extrapolation and retrieval (WILDER) // Proc. 8^th Text Retrieval Conference TREC. Gaithersburg, USA,1999. P. 717.

9. Gillam L., Tariq M., Ahmad K. Terminology and the construction of ontology // Terminology. 2005. V. 11. N 1. P. 55–81.

10. Penas A., Verdejo F., Gonzalo J. Corpus-based terminology extraction applied to information access // Proceedings of Corpus Linguistics. 2001. V. 2001. P. 458–465.

11. Kim S.N., Baldwin T., Kan M.-Y. An unsupervised approach to domain-specific term extraction // Proc. Australasian Language Technology Association Workshop. 2009. P. 94–98.

12. Basili R. A contrastive approach to term extraction // Proc. 4^th Terminological and Artificial Intelligence Conference (TIA2001). Nancy, France, 2001.

13. Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies using domain prevalence and tendency // Proc. 6^th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. V. 70. P. 47–54.

14. Sclano F., Velardi P. Termextractor: a web application to learn the shared terminology of emergent web communities / In : Enterprise Interoperability II. Springer, 2007. P. 287–290. doi: 10.1007/978-1-84628-858-6_32

15. Lopes L., Fernandes P., Vieira R. Estimating term domain relevance through term frequency, disjoint corpora frequency-tf-dcf // Knowledge-Based Systems. 2016. V. 97. P. 237–249. doi: 10.1016/j.knosys.2015.12.015

16. Wong W., Liu W., Bennamoun M. Determining termhood for learning domain ontologies in a probabilistic framework // Proc. 6^th Australasian Conference on Data Mining and Analytics. Gold Coast, Australia, 2007. V. 70. P. 55–63.

17. Prelov V. Mutual information of several random variables and its estimation via variation // Problems of Information Transmission. 2009. V. 45. N 4. P. 295–308. doi: 10.1134/s0032946009040012

18. Hasan K.S., Ng V. Automatic keyphrase extraction: a survey of the state of the art // Proc. 52^nd Annual Meeting of the Association for Computational Linguistics. 2014. V. 1. P. 1262–1273. doi: 10.3115/v1/p14-1119

19. Matsuo Y., Ishizuka M. Keyword extraction from a single document using word co-occurrence statistical information // International Journal on Artificial Intelligence Tools. 2004. V. 13. N 1. P. 157–169. doi: 10.1142/s0218213004001466

20. Slonim N., Tishby N. The power of word clusters for text classification // Proc. 23^rd European Colloquium on Information Retrieval Research. 2001. V. 1.

21. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika. 1936. V. 1. N 3. P. 211–218. doi: 10.1007/bf02288367

22. Общая геология / Под ред. А.К. Соколовского. М.: КДУ, 2006. Т. 1. 448 с.

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License