Виклики домену
Українська будівельна термінологія ставить унікальні виклики для NLP. Будівельні документи поєднують формальну літературну українську з технічним жаргоном, радянською термінологією з російськомовних стандартів (ДБН/СНиП) та сучасними англійськими запозиченнями. Одне поняття може виступати як залізобетон, ж/б або армований бетон.
Існуючі словники добре покривають загальну лексику, але мають значні прогалини в будівельній термінології. Ця неузгодженість створює проблеми для NLP-систем: токенізатори неправильно розбивають складені терміни, NER-моделі не розпізнають доменні сутності.
BUDOVA вирішує ці прогалини шляхом побудови курованого структурованого лексикону з первинних джерел: офіційних ДБН, університетських підручників та експертної валідації.
Структура лексикону
Лексикон BUDOVA спроєктований як машинно-читабельний лінгвістично багатий ресурс. Кожний запис містить український термін, англійський еквівалент, морфологічну інформацію (рід, відмінювання, наголос), визначення та приклади вживання з корпусу.
- term_uk: канонічна українська форма з наголосом
- term_en: англійський переклад
- morphology: рід, число, клас відмінювання
- domain: ієрархічний шлях категорії (напр., Матеріали > Бетон > Добавки)
- synonyms: варіантні форми, абревіатури, розмовні еквіваленти
Наразі лексикон містить близько 3 200 валідованих записів, планове значення — 7 000–10 000 до завершення фази збору. Всі записи проходять експертну перевірку щонайменше двома фахівцями.
Схема NER-анотації
Лексикон безпосередньо визначає схему NER-анотації BUDOVA. Ми визначаємо чотири основні типи сутностей:
- MATERIAL: будівельні матеріали та композити (напр., портландцемент, арматура А500С)
- ELEMENT: конструктивні та архітектурні елементи (напр., несуча стіна, фундаментна плита)
- PROCESS: будівельні процеси (напр., бетонування, монтаж опалубки, гідроізоляція)
- PROPERTY: вимірювані характеристики (напр., міцність на стиск, клас вогнестійкості)
Анотації використовують схему тегування IOB2 і зберігаються у форматі CoNLL. Кожен анотований документ містить метадані, що пов'язують сутності із записами лексикону. Настанови анотації розроблені спільно з партнерами EPFL та ETH Zürich.
На сьогодні анотовано понад 15 000 згадок сутностей у 2 400 документах з міжанотаторною узгодженістю (span-level F1) 0.91. Команда анотаторів складається з шести лінгвістів під керівництвом двох старших термінологів.