Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності

Українська будівельна термінологія: міст між мовою та технологіями

Виклики домену

Українська будівельна термінологія ставить унікальні виклики для NLP. Будівельні документи поєднують формальну літературну українську з технічним жаргоном, радянською термінологією з російськомовних стандартів (ДБН/СНиП) та сучасними англійськими запозиченнями. Одне поняття може виступати як залізобетон, ж/б або армований бетон.

Існуючі словники добре покривають загальну лексику, але мають значні прогалини в будівельній термінології. Ця неузгодженість створює проблеми для NLP-систем: токенізатори неправильно розбивають складені терміни, NER-моделі не розпізнають доменні сутності.

BUDOVA вирішує ці прогалини шляхом побудови курованого структурованого лексикону з первинних джерел: офіційних ДБН, університетських підручників та експертної валідації.

Структура лексикону

Лексикон BUDOVA спроєктований як машинно-читабельний лінгвістично багатий ресурс. Кожний запис містить український термін, англійський еквівалент, морфологічну інформацію (рід, відмінювання, наголос), визначення та приклади вживання з корпусу.

  • term_uk: канонічна українська форма з наголосом
  • term_en: англійський переклад
  • morphology: рід, число, клас відмінювання
  • domain: ієрархічний шлях категорії (напр., Матеріали > Бетон > Добавки)
  • synonyms: варіантні форми, абревіатури, розмовні еквіваленти

Наразі лексикон містить близько 3 200 валідованих записів, планове значення — 7 000–10 000 до завершення фази збору. Всі записи проходять експертну перевірку щонайменше двома фахівцями.

Схема NER-анотації

Лексикон безпосередньо визначає схему NER-анотації BUDOVA. Ми визначаємо чотири основні типи сутностей:

  • MATERIAL: будівельні матеріали та композити (напр., портландцемент, арматура А500С)
  • ELEMENT: конструктивні та архітектурні елементи (напр., несуча стіна, фундаментна плита)
  • PROCESS: будівельні процеси (напр., бетонування, монтаж опалубки, гідроізоляція)
  • PROPERTY: вимірювані характеристики (напр., міцність на стиск, клас вогнестійкості)

Анотації використовують схему тегування IOB2 і зберігаються у форматі CoNLL. Кожен анотований документ містить метадані, що пов'язують сутності із записами лексикону. Настанови анотації розроблені спільно з партнерами EPFL та ETH Zürich.

На сьогодні анотовано понад 15 000 згадок сутностей у 2 400 документах з міжанотаторною узгодженістю (span-level F1) 0.91. Команда анотаторів складається з шести лінгвістів під керівництвом двох старших термінологів.