doi: 10.17586/2226-1494-2021-21-2-256-266


УДК 004.822

Построение графов знаний нормативной документации на основе семантического моделирования и автоматического извлечения терминов

Муромцев Д.И., Шилин И.А., Плюхин Д.А., Баймуратов И.Р., Хайдарова Р.Р., Дементьева Ю.Ю., Ожигин Д.А., Малышева Т.А.


Читать статью полностью 
Язык статьи - Russian

Ссылка для цитирования:

Муромцев Д.И., Шилин И.А., Плюхин Д.А., Баймуратов И.Р., Хайдарова Р.Р., Дементьева Ю.Ю., Ожигин Д.А., Малышева Т.А. Построение графов знаний нормативной документации на основе семантического моделирования и автоматического извлечения терминов // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 2. С. 256–266. doi: 10.17586/2226-1494-2021-21-2-256-266



Аннотация

Предмет исследования. Предложено новое комплексное решение для автоматического анализа и идентификации терминов в нормативно-технической документации. Идентификация терминов в документации является актуальной задачей в цифровизации отрасли проектирования и строительства зданий и сооружений. В настоящий момент поиск и проверка требований нормативно-технической документации выполняется вручную, что влечет существенное количество ошибок. Автоматизация подобных задач позволит существенно повысить качество автоматизированного проектирования. Метод. Разработанный алгоритм основан на таких методах анализа естественного языка как токенизация, поиск лемм и основ слов, анализ стоп-слов, подсчет векторных представлений токенов и словосочетаний, частеречная и синтаксическая разметка и др. Основные результаты. Эксперименты по автоматическому извлечению терминов в нормативной документации показали большие возможности предложенного алгоритма для построения графов знаний в предметной области проектирования. Точность распознавания на примере 202 отобранных экспертами документов составила 79 % по совпадению наименований и 37 % по совпадению идентификаторов терминов. Это является сопоставимым результатом с известными подходами к решению данной проблемы. Практическая значимость. Результаты работы могут использоваться в системах автоматического проектирования на основе Building Information Modeling моделей, а также для автоматизации экспертизы проектной документации.


Ключевые слова: семантический анализ текста, онтологии, извлечение терминов, векторные представления, глубокие нейронные сети

Список литературы
  1. Eastman C.M., Teicholz P., Sacks R., Liston K. BIM Handbook: A Guide to Building Information Modeling for Owners, Managers, Designers, Engineers and Contractors. John Wiley & Sons, 2011. 640 p.
  2. Liebich T. et al. Industry foundation classes IFC2x edition 3 technical corrigendum 1 / International Alliance for Interoperability (Model Support Group). 2012.
  3. Pauwels P., Van Deursen D., Verstraeten R., De Roo J., De Meyer R., Van De Walle R., Van Campenhout J. A semantic rule checking environment for building performance checking // Automation in Construction. 2011. V. 20. N 5. P. 506–518. doi: 10.1016/j.autcon.2010.11.017
  4. Zhang C., Beetz J., Weise M. Model view checking: automated validation for IFC building models // eWork and eBusiness in Architecture, Engineering and Construction: Proc. 10th European Conference on Product and Process Modelling, ECPPM. 2014. P. 123–128. doi: 10.1201/b17396-24
  5. Pauwels P., Terkaj W. EXPRESS to OWL for construction industry: Towards a recommendable and usable ifcOWL ontology // Automation in Construction. 2016. V. 63. P. 100–133. doi: 10.1016/j.autcon.2015.12.003
  6. Dawood H., Siddle J., Dawood N. Integrating IFC and NLP for automating change request validations // Journal of Information Technology in Construction. 2019. V. 24. P. 540–552. doi: 10.36680/J.ITCON.2019.030
  7. Hernández E.G., Piulachs J.M. Application of the Dublin Core format for automatic metadata generation and extraction // Proc. 5th International Conference on Dublin Core and Metadata Applications (DC-2005). 2005. P. 213–216.
  8. Constantin A., Peroni S., Pettifer S., Shotton D., Vitali F. The document components ontology (DoCO) // Semantic Web. 2016. V. 7. N 2. P. 167–181. doi: 10.3233/SW-150177
  9. Villegas M., Bel N. PAROLE/SIMPLE ‘lemon’ontology and lexicons // Semantic Web. 2015. V. 6. N 4. P. 363–369. doi: 10.3233/SW-140148
  10. Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL HLT. V 1. 2019. P. 4171–4186.


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2021 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика