Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Протокол анотації

Гайдлайни

Публічний рулбук для розмітки BUDOVA. Кожне правило має якір для цитування — використовуйте у статтях і дискусіях.

Версія: v0.2Розділи: 12Правила: 43CC-BY 4.0

Обсяг

Правила розмітки україномовного будівельного тексту з named-entity, регістром та діалектом.

scope-1

Що покриває корпус

BUDOVA покриває будівельний домен української мови у чотирьох регістрах: нормативи (ДБН / ДСТУ), специфікації, кошториси, польова говірка. Тексти поза доменом відхиляються ще до розмітки.

Монолітні залізобетонні конструкції з класом бетону C25/30.
Учорашній матч чемпіонату України.Поза доменом — відхилити.
scope-2

Що розмічається

Кожен фрагмент отримує NER-мітки (8 типів сутностей), регістр і — для мовлення — регіон та ID спікера.

Текст + NER-спани + register=normative + source=ДБН В.1.1-12:2014
scope-3

Що не розмічається

Підписи до рисунків, формули, заголовки таблиць і самотні числові фрагменти без контексту виключаються. Розмічайте речення з доменною інформацією, не типографіку.

Табл. 3Пропускати маркери таблиць.
ΣM_x = 0Пропускати ізольовані формули.

Типи сутностей

Вісім NER-міток покривають корпус. Визначення нижче — ground-truth для всіх анотаторів.

entities-material

material

Будівельні речовини, композити, іменовані продукти — бетон, арматура, ізоляція, віконні блоки, гіпсокартон, цемент. Багатослівні канонічні назви зберігаються цілими.

монолітний залізобетон
двокамерний склопакет
бетонГолий іменник без означення — на межі; приймати, якщо канонічний у контексті.
entities-tool

tool

Техніка, обладнання та інструменти — екскаватор, кран, дриль, мастерок, риштування, опалубка.

баштовий кран
зварювальний апарат
entities-process

process

Будівельні дії — бетонування, зварювання, монтаж, штукатурення, свердління, гідроізоляція. Віддавати перевагу віддієслівним іменникам.

бетонування при температурі нижче +5 °C
роблять бетонРозмовна дієслівна форма — нормалізувати у "бетонування".
entities-measurement

measurement

Числа з одиницями, кодами класу, розмірами, відсотками. Завжди включати одиницю у спан.

переріз 400×400 мм
клас бетону C25/30
400Голе число без одиниці — не measurement.
entities-structure

structure

Конструктивні та архітектурні елементи — фундаменти, колони, балки, плити, дахи, сходи, пандуси.

несуча стіна підвалу
фундаментна плита
entities-safety

safety

Засоби та заходи безпеки — ЗІЗ, каски, страхувальні пояси, вогнегасники, шляхи евакуації, захисні огородження. Посилання на стандарти — це regulation; числові класи захисту — property.

засоби індивідуального захисту
аварійне освітлення шляхів евакуації
ДБН А.3.1-5:2016Посилання на стандарт — regulation, не safety.
entities-regulation

regulation

Нормативні посилання — ДБН, ДСТУ, СОУ, стандарти ISO та EN, Єврокоди, технічні умови (ТУ). Повний код із роком — одним спаном (див. boundaries-3).

ДБН В.2.2-40:2018
ДСТУ EN 81-70
entities-property

property

Іменовані технічні властивості та класи характеристик — клас вогнестійкості, теплопровідність, індекс звукоізоляції, несуча здатність, клас міцності. Числове значення з одиницею — це measurement; сама назва властивості — property.

клас вогнестійкості R120
несуча здатність
0.045 Вт/(м·К)Значення з одиницею — measurement, не property.

Межі спанів

Де починається і закінчується анотація — найпоширеніше джерело неузгодженості.

boundaries-1

Включати означення

Коли доменний прикметник чи кількісне слово змінює сенс головного іменника, включайте його у спан.

монолітний залізобетон"Монолітний" доменно-важливе.
монолітний залізобетонВтрата означення змінює сенс.
boundaries-2

Виключати прийменники і філери

Не включати прийменники чи філери на краях спана.

у фундаменті
у фундаменті
boundaries-3

Канонічні терміни — цілими

Стійкі словосполучення (ДБН + код, клас + число) ніколи не розривати.

ДБН В.1.1-12:2014
ДБН В.1.1-12:2014

Вкладені сутності

Коли одна сутність міститься в іншій.

nested-1

Анотувати зовнішній спан

Якщо довша назва матеріалу містить числовий клас — позначити повний material-спан; measurement усередині окремо не розмічається.

бетон класу C25/30Один material-спан; C25/30 — всередині.
бетон класу C25/30Розрив створює неоднозначність.
nested-2

Розділяти на природних межах

Коли дві різні сутності межують — кожна отримує свій спан.

фундаментна плита під колоною

Діалектизми та розмовні форми

Обробка регіональної лексики та неформального мовлення.

dialect-1

Анотувати поверхневу форму

Використовувати слово як є у тексті. Канонічне відображення — окреме метаданне, не заміна.

ґіпсокартонЗахідний варіант; зберігати "ґ".
шпахлівкаДіалектне; у metadata замапити у "шпаклівка".
dialect-2

Теги діалектного походження

Для аудіозаписів регіон + діалектна група (Північна / Південно-західна / Південно-східна — стандартна тригрупова українська класифікація) додаються до висловлювання, не до окремих спанів.

Регіон — utterance-level поле у schema для speech-підмножини.

Протокол запису

Як записувати мовлення, щоб воно проходило корпусну планку якості. Сервер міряє SNR і пік для WAV-завантажень; браузерний рекордер фіксує формат. Повна специфікація для контриб’ютора: docs/recording-spec.md.

record-1

Девайс і дозволи

Якщо можливо — окремий мікрофон (USB-конденсаторний, петлічка, пристойний телефон). У навушниках, щоб не було витоку зі спікерів у мікрофон. Надайте дозвіл на мікрофон браузеру — рекордер зупиняє audio-track після стопу, тож індикатор має зникнути.

AGC / шумозаглушення / ехокомпенсація вимкнені у браузерному рекордері. Якщо використовуєте зовнішню DAW — вимикайте їх теж.
record-2

Умови у кімнаті та SNR

Записувати у тихій кімнаті (без обдуву кондиціонера, без вуличного шуму). Зробити 3–5 секунд тиші на початку та перевірити рівень шуму на лічильнику. Корпусна ціль — SNR ≥ 20 dB; upload-відповідь містить попередження, якщо WAV нижче.

Офіс із зачиненими дверима, вентилятор вимкнено → типовий SNR 30–40 dB.
Будмайданчик без вітрозахисту → може впасти нижче 15 dB; зазначте рівень шуму у source_ref.
record-3

Рівні — пік −12 до −3 dBFS

Достатньо голосно, щоб явно перевищувати шум, і не клипати. Цільтесь у піки −12…−3 dBFS. Сервер не відхиляє за самим рівнем, але зберігає peak_dbfs, щоб клипнуті дублі можна було відфільтрувати на експорті.

Пік ≥ −0.1 dBFS → клипінг, спотворення вбудовані у файл.
Пік ≤ −40 dBFS → надто тихо, низький ефективний SNR.
record-4

Формат і тривалість

Для зовнішньої DAW — моно 48 kHz 16-bit PCM WAV. Браузерний рекордер пише 48 kHz моно WebM/Opus @ 64 kbit/s (Safari переходить на MP4/AAC). Один уривок на файл, 30 с – 3 хв. Максимум 50 MB.

90-секундний моно WAV @ 48 kHz одного спікера, що пояснює заливку бетону.
12-хвилинний стерео-файл із трьома спікерами і телевізором на фоні.
record-5

Один спікер на файл

Один спікер у одному файлі. Якщо ви берете інтервʼю — розбийте на по одному файлу на спікера. Якщо записаний справжній діалог — зазначте у source_ref ("2 спікери, бригадир + робітник").

speaker_id присвоюється автоматично на контриб’ютора; змішування спікерів у файлі ламає це припущення.
record-6

PII та контент

Без повних імен, адрес, номерів телефонів, номерів авто чи особистих медичних даних. Діалектна лексика — навпаки, бажана, тегайте свій регіон, щоб дослідники-діалектологи могли її знайти. Тільки будівельний домен.

"…шпахлівку накладали в три проходи з шліфуванням між ними."
"Я, Іван Петренко, проживаю за адресою…"PII; або відхилити запис, або перезаписати без ідентифікуючих деталей.

Бренд vs матеріал

Розрізнення брендів та загальних назв речовин.

brand-1

Бренд — частина матеріалу

Коли бренд уточнює матеріал — розмічати повний спан як material, а бренд у sub-field.

склопакет REHAU 70Material з бренд-уточненням.
склопакет REHAU 70Не розривати на дві сутності.
brand-2

Самотній бренд — пропустити

Бренд без контексту будівельного матеріалу не анотується.

REHAUСамотній у тексті — немає контексту.

Числові значення

Розміри, класи, відсотки, складені виміри.

numeric-1

Завжди включати одиницю

Число без одиниці — не measurement. Включайте мм/см/м/МПа/°C/% / код класу у спан.

30 мм
25 МПа
30
numeric-2

Багатовісні розміри

Для добутків розмірів (400×400 мм) тримати весь вираз одним спаном. Те саме для допусків.

400×400 мм
±5 мм
numeric-3

Коди класів

Коди класів (C25/30, XC3, B400C) — measurement-спани; включати префіксну літеру і косу риску.

класу C25/30
клас експозиції XC3

Регістри

Класифікація стилістичного регістру кожного фрагмента.

register-1

Normative

Текст ДБН / ДСТУ / СОУ та інші стандарти — формальний юридичний регістр з явними числовими порогами та модальністю "повинні/мають".

Конструкції повинні проєктуватися з урахуванням…
register-2

Specification

Datasheet-и, технічні специфікації — числово-навантажені, часті бренди, імперативні та описові речення.

Віконний блок ПВХ серії REHAU 70, розміри 1400×1600 мм.
register-3

Estimate

Кошториси, рядки work-item, таблиці одиничних розцінок. Впізнається за дієслівними фразами типу робіт і per-unit коефіцієнтами.

Улаштування покриття з металочерепиці, коефіцієнт 1.08.
register-4

Field

Мовлення на об’єкті та неформальні нотатки — діалектна лексика, приблизні числа, філери.

Стяжку лили в чотири, ну п’ять з хвостиком.

Неоднозначність

Що робити, коли спан може мати більше ніж одну мітку.

ambiguity-1

Вужча мітка переможе

Якщо термін може бути material АБО structure — обирайте ту, що вужча у конкретному реченні.

"Стіна" у "бетонна стіна" → structure (елемент); у "виготовлення стін" → structure (елемент).
ambiguity-2

Флаг на розгляд

Задачі, де два анотатори розійшлись після першого проходу, ідуть у чергу admin review з тегом "needs adjudication".

Agreement metadata зберігає per-word узгодженість; елементи нижче порогу виводяться у admin-дашборд. Див. секцію "Узгодженість і злиття".

Узгодженість і злиття

Як робота кількох анотаторів стає одним записом датасету і як рахуються опубліковані показники узгодженості. Методологія версії 2 (червень 2026); записи, змержені раніше, несуть метадані v1 і позначені відповідно в експортах.

agreement-1

Консенсус більшістю голосів

Кожне завдання незалежно розмічають N анотаторів (типово 3). Спани проєктуються на символи; символ отримує мітку сутності, якщо її поставили щонайменше ⌈N/2⌉ анотаторів. Консенсусні спани з середньою посимвольною підтримкою нижче 0.6 не потрапляють у змержений запис — але лишаються видимими у таблиці per-word узгодженості.

2 з 3 анотаторів позначили "ДСТУ EN 81-70" як regulation → спан виживає з agreement 0.67.
agreement-2

Fleiss’ κ по вікну сутностей

Головний коефіцієнт — Fleiss’ κ, обчислена лише по вікну сутностей: позиціях, де хоча б один анотатор позначив сутність. Нерозмічений текст у розрахунок не входить, тому значення порівнянне між фрагментом на два речення і багатосторінковим пунктом: однаковий патерн розмітки дає однакову κ незалежно від довжини тексту.

Повнотекстова посимвольна κ (v1) досі зберігається як fleissKappa для довідки, але вона чутлива до довжини: домінантний клас "поза сутністю" завищує очікувану згоду на довгих текстах і робить κ нестабільною на коротких.
agreement-3

Span-level F1

Для кожної пари анотаторів спани вважаються збігом, якщо мають однакову мітку і перетин з IoU ≥ 0.5. Середній попарний F1 вимірює, чи знаходять анотатори ті самі сутності — доповнюючи κ, яка вимірює позиційну консистентність.

agreement-4

Композитний validation score

validation_score = 0.35 · max(0, κ_entity) + 0.65 · F1. Виявлення спанів важить більше, бо саме від нього залежить якість NER-тренування. Кольорове кодування: ≥ 0.7 високий, 0.4–0.7 середній, < 0.4 низький (черга на адʼюдикацію).

agreement-5

Інтерпретація κ

κ ≤ 0 — не краще за випадковість; 0.2–0.4 слабка; 0.4–0.6 помірна; 0.6–0.8 суттєва; > 0.8 майже ідеальна. κ = 1 з порожнім вікном сутностей означає: всі анотатори погодились, що сутностей у фрагменті немає.

Посилання

Зовнішні документи, що формалізують конвенції вище.

ref-1

Основні стандарти

ДБН В.1.1-12:2014 (сейсміка), ДБН В.2.6-98:2009 (бетонні конструкції), ДБН А.3.1-5:2016 (організація будівництва).

ref-2

Таксономія NER

Восьмимітковий набір адаптує таксономію Ontonotes до будівельного домену. Повне обґрунтування у project paper (v1.0).

ref-3

Цитування

При цитуванні: "BUDOVA Annotation Guidelines v0.2 (2026)". Глибоке посилання на конкретне правило — через якір, напр. /guidelines#entities-material.

Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab