НИКИФОРОВ
Владимир Олегович
д.т.н., профессор
doi: 10.17586/2226-1494-2021-21-2-256-266
УДК 004.822
Построение графов знаний нормативной документации на основе семантического моделирования и автоматического извлечения терминов
Читать статью полностью
Ссылка для цитирования:
Муромцев Д.И., Шилин И.А., Плюхин Д.А., Баймуратов И.Р., Хайдарова Р.Р., Дементьева Ю.Ю., Ожигин Д.А., Малышева Т.А. Построение графов знаний нормативной документации на основе семантического моделирования и автоматического извлечения терминов // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 2. С. 256–266. doi: 10.17586/2226-1494-2021-21-2-256-266
Аннотация
Предмет исследования. Предложено новое комплексное решение для автоматического анализа и идентификации терминов в нормативно-технической документации. Идентификация терминов в документации является актуальной задачей в цифровизации отрасли проектирования и строительства зданий и сооружений. В настоящий момент поиск и проверка требований нормативно-технической документации выполняется вручную, что влечет существенное количество ошибок. Автоматизация подобных задач позволит существенно повысить качество автоматизированного проектирования. Метод. Разработанный алгоритм основан на таких методах анализа естественного языка как токенизация, поиск лемм и основ слов, анализ стоп-слов, подсчет векторных представлений токенов и словосочетаний, частеречная и синтаксическая разметка и др. Основные результаты. Эксперименты по автоматическому извлечению терминов в нормативной документации показали большие возможности предложенного алгоритма для построения графов знаний в предметной области проектирования. Точность распознавания на примере 202 отобранных экспертами документов составила 79 % по совпадению наименований и 37 % по совпадению идентификаторов терминов. Это является сопоставимым результатом с известными подходами к решению данной проблемы. Практическая значимость. Результаты работы могут использоваться в системах автоматического проектирования на основе Building Information Modeling моделей, а также для автоматизации экспертизы проектной документации.
Список литературы
- Eastman C.M., Teicholz P., Sacks R., Liston K. BIM Handbook: A Guide to Building Information Modeling for Owners, Managers, Designers, Engineers and Contractors. John Wiley & Sons, 2011. 640 p.
- Liebich T. et al. Industry foundation classes IFC2x edition 3 technical corrigendum 1 / International Alliance for Interoperability (Model Support Group). 2012.
- Pauwels P., Van Deursen D., Verstraeten R., De Roo J., De Meyer R., Van De Walle R., Van Campenhout J. A semantic rule checking environment for building performance checking // Automation in Construction. 2011. V. 20. N 5. P. 506–518. doi: 10.1016/j.autcon.2010.11.017
- Zhang C., Beetz J., Weise M. Model view checking: automated validation for IFC building models // eWork and eBusiness in Architecture, Engineering and Construction: Proc. 10th European Conference on Product and Process Modelling, ECPPM. 2014. P. 123–128. doi: 10.1201/b17396-24
- Pauwels P., Terkaj W. EXPRESS to OWL for construction industry: Towards a recommendable and usable ifcOWL ontology // Automation in Construction. 2016. V. 63. P. 100–133. doi: 10.1016/j.autcon.2015.12.003
- Dawood H., Siddle J., Dawood N. Integrating IFC and NLP for automating change request validations // Journal of Information Technology in Construction. 2019. V. 24. P. 540–552. doi: 10.36680/J.ITCON.2019.030
- Hernández E.G., Piulachs J.M. Application of the Dublin Core format for automatic metadata generation and extraction // Proc. 5th International Conference on Dublin Core and Metadata Applications (DC-2005). 2005. P. 213–216.
- Constantin A., Peroni S., Pettifer S., Shotton D., Vitali F. The document components ontology (DoCO) // Semantic Web. 2016. V. 7. N 2. P. 167–181. doi: 10.3233/SW-150177
- Villegas M., Bel N. PAROLE/SIMPLE ‘lemon’ontology and lexicons // Semantic Web. 2015. V. 6. N 4. P. 363–369. doi: 10.3233/SW-140148
- Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proc. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL HLT. V 1. 2019. P. 4171–4186.