Ссылка для цитирования: : Юй Чуцяо. Метод автоматического извлечения открытых отношений из китайских текстов // Научно-технический вестник информационных технологий, механики и оптики. 2018. Т. 18. № 1. С. 163–165. doi: 10.17586/2226-1494-2018-18-1-163-165
Аннотация
В работе исследована проблема извлечения открытых отношений в форме субъект-предикат-объект из китайских текстов. В отличие от общепринятых многофазных методов, включающих сегментацию слов, частеречный и синтаксический анализ, предлагается ролевой подход к выявлению членов предложения без предварительного разбиения последовательности иероглифов на отдельные слова. В основе подхода лежит использование служебных слов, предлогов и послелогов в качестве признаков частей речи и членов предложения. В сочетании со словарем небольшого размера этого достаточно для извлечения фактов по запросу. Проведенные эксперименты на реальном техническом тексте показывают удовлетворительные результаты, сопоставимые с традиционным подходом.
Ключевые слова: извлечение фактов, китайский язык, ролевой подход, анализ текстов, словарь, сегментация предложений, частеречный анализ
Список литературы
1. Banko M., Cafarella M.J., Soderland S., Broadhead M., Etzioni O. Open information extraction from the Web // Proc.20th Int. Joint Conf. on Artificial Intelligence (IJCAI’07). Hyderabad, India, 2007. P. 2670–2676.
2. Tseng Y.H., Lee L.H., Lin S.Y, Liao B.S., Liu M.J., Chen H.H., Etzioni O., Fader A. Chinese open relation extraction for knowledge acquisition // Proc. 14th Conf. of the European Chapter of the Association for Computational Linguistics (EACL). Gothenburg, Sweden, 2014. V. 2. P. 12–16. doi: 10.3115/v1/e14-4003
3. Zeng D., Wei D., Chau M., Wang F. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontiers. 2011. V. 13. N 1. P. 115–125. doi: 0.1007/s10796-010-9278-5
4. Zhao J., Qiu X., Zhang S., Ji F., Huang X. Part-of-speech tagging for Chinese-English mixed texts with dynamic features // Proc. 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea, 2012. P. 1379–1388.
5. Basili R. A contrastive approach to term extraction // Proc. 4th Terminological and Artificial Intelligence Conference (TIA2001). Nancy, France, 2001.
6. Lopes L., Fernandes P., Vieira R. Estimating term domain relevance through term frequency, disjoint corpora frequency – TF-DCF // Knowledge-Based Systems. 2016. V. 97. P. 237–249. doi: 10.1016/j.knosys.2015.12.015
7. Zhu Q., Cheng X.Y. The overview of Chinese information extraction // IJCSNS International Journal of Computer Science and Network Security. 2010. V. 10. N 9. P. 171–174.
8. Wong W. Determination of unithood and termhood for term recognition / In: Text and Web Mining Technologies. IGI Global, 2008. P. 500–529. doi: 10.4018/978-1-59904-990-8.ch030
9. Nugumanova A., Bessmertny I.A., Baiburin Y., Mansurova M. A new operationalization of contrastive term extraction approach based on recognition of both representative and specific terms // Communications in Computer and Information Science. 2016. V. 649. P. 103–118. doi:10.1007/978-3-319-45880-9_9
10. Бессмертный И.А., Юй Чуцяо, Ма Пенюй.Статистическийметодизвлечениятерминовизкитайскихтекстовбезсловаря // Научно-техническийвестникинформационныхтехнологий, механикииоптики. 2016. Т. 16. № 6. С. 1096–1102. doi: 10.17586/2226-1494-2016-16-6-1096-1102