Документація

Технічна документація для датасетів, моделей та інструментів BUDOVA.

Огляд

BUDOVA (Building Ukrainian Domain-Specific, Open Voice & Text Archives) — комплексний український мовний датасет будівельної галузі. Ця документація охоплює структуру, використання та технічні деталі всіх ресурсів проєкту.

Всі датасети розміщені на Hugging Face та Zenodo під відкритими ліцензіями.

Мовленнєвий датасет

Цільовий обсяг мовленнєвого датасету — 100+ годин анотованих записів будівельного мовлення з усієї України, покриваючи північну (поліський, слобожанський), південно-західну (волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський) та південно-східну (степовий) діалектні групи.

Формати на завантаження: WAV, MP3, OGG, FLAC, WebM, M4A (до 50 MB на файл). Бажано WAV (16-bit mono PCM на 48 kHz) для експорту із зовнішньої DAW — див. docs/recording-spec.md.

Браузерний рекордер: 48 kHz моно WebM/Opus (або MP4/AAC на Safari), AGC / шумозаглушення / ехокомпенсація вимкнені.

Ціль якості: SNR ≥ 20 dB. WAV-завантаження аналізуються на сервері (percentile-energy VAD); SNR зберігається у рядку, а нижче порогу — повертається qualityWarning, але запис не блокується.

Типи контенту:

Обговорення та інструктажі на майданчиках
Зачитування протоколів безпеки
Технічні консультації
Наради з планування будівництва

Анотації: Кожний аудіосегмент містить часові мітки, ID мовців, текст транскрипції та діалектні маркери.

Текстовий корпус

Текстовий корпус містить 100M+ токенів будівельної документації з NER-анотаціями.

Типи документів:

ДБН будівельні норми
Технічні специфікації
Протоколи безпеки
Проєктна документація
Будівельні контракти

Формат: JSON-lines з наступною структурою на документ:

{
  "id": "doc_001",
  "text": "...",
  "source": "dbn",
  "entities": [
    {"start": 0, "end": 15, "label": "MATERIAL", "text": "..."}
  ],
  "metadata": {"year": 2024, "category": "safety"}
}

Будівельний лексикон

Двомовний (українсько-англійський) словник будівельної термінології, що містить 5–10K доменних термінів.

Покриття:

Будівельні матеріали та композити
Технології та методи будівництва
Стандарти безпеки та обладнання
Нормативна та юридична термінологія
Інструменти, машини та обладнання

Формат: Структурований JSON з українським терміном, англійським перекладом, визначенням, прикладами використання та категорією домену.

Інструкції завантаження

Ви можете отримати доступ до датасетів BUDOVA через бібліотеку Hugging Face datasets:

pip install datasets

Завантажити мовленнєвий датасет:

from datasets import load_dataset

speech = load_dataset("budova/speech-uk-construction")
print(speech["train"][0])

Завантажити текстовий корпус:

from datasets import load_dataset

corpus = load_dataset("budova/text-uk-construction")
print(corpus["train"].features)

Завантажити лексикон:

from datasets import load_dataset

lexicon = load_dataset("budova/construction-lexicon")
print(lexicon["train"][0])

Приклади використання Python

Fine-tune модель Whisper на мовленнєвих даних BUDOVA:

from transformers import WhisperForConditionalGeneration
from transformers import WhisperProcessor
from datasets import load_dataset

model = WhisperForConditionalGeneration.from_pretrained(
    "openai/whisper-small"
)
processor = WhisperProcessor.from_pretrained(
    "openai/whisper-small"
)

dataset = load_dataset("budova/speech-uk-construction")
# Попередня обробка та код тренування нижче
# Див. повні приклади у GitHub-репозиторії

Запустити NER на будівельному тексті:

from transformers import pipeline

ner = pipeline(
    "ner",
    model="budova/ner-uk-construction",
    aggregation_strategy="simple"
)

text = "Застосування арматури класу A500C"
entities = ner(text)
print(entities)

Ліцензія

Ресурси BUDOVA опубліковані під наступними ліцензіями:

Датасети: CC-BY 4.0
Моделі: Apache 2.0
Код: MIT License

При використанні ресурсів BUDOVA, будь ласка, цитуйте проєкт. Див. розділ відкритих даних для BibTeX-цитати.