Огляд
BUDOVA (Building Ukrainian Domain-Specific, Open Voice & Text Archives) — комплексний український мовний датасет будівельної галузі. Ця документація охоплює структуру, використання та технічні деталі всіх ресурсів проєкту.
Всі датасети розміщені на Hugging Face та Zenodo під відкритими ліцензіями.
Мовленнєвий датасет
Цільовий обсяг мовленнєвого датасету — 100+ годин анотованих записів будівельного мовлення з усієї України, покриваючи північну (поліський, слобожанський), південно-західну (волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський) та південно-східну (степовий) діалектні групи.
Формати на завантаження: WAV, MP3, OGG, FLAC, WebM, M4A (до 50 MB на файл). Бажано WAV (16-bit mono PCM на 48 kHz) для експорту із зовнішньої DAW — див. docs/recording-spec.md.
Браузерний рекордер: 48 kHz моно WebM/Opus (або MP4/AAC на Safari), AGC / шумозаглушення / ехокомпенсація вимкнені.
Ціль якості: SNR ≥ 20 dB. WAV-завантаження аналізуються на сервері (percentile-energy VAD); SNR зберігається у рядку, а нижче порогу — повертається qualityWarning, але запис не блокується.
Типи контенту:
- Обговорення та інструктажі на майданчиках
- Зачитування протоколів безпеки
- Технічні консультації
- Наради з планування будівництва
Анотації: Кожний аудіосегмент містить часові мітки, ID мовців, текст транскрипції та діалектні маркери.
Текстовий корпус
Текстовий корпус містить 100M+ токенів будівельної документації з NER-анотаціями.
Типи документів:
- ДБН будівельні норми
- Технічні специфікації
- Протоколи безпеки
- Проєктна документація
- Будівельні контракти
Формат: JSON-lines з наступною структурою на документ:
{
"id": "doc_001",
"text": "...",
"source": "dbn",
"entities": [
{"start": 0, "end": 15, "label": "MATERIAL", "text": "..."}
],
"metadata": {"year": 2024, "category": "safety"}
}Будівельний лексикон
Двомовний (українсько-англійський) словник будівельної термінології, що містить 5–10K доменних термінів.
Покриття:
- Будівельні матеріали та композити
- Технології та методи будівництва
- Стандарти безпеки та обладнання
- Нормативна та юридична термінологія
- Інструменти, машини та обладнання
Формат: Структурований JSON з українським терміном, англійським перекладом, визначенням, прикладами використання та категорією домену.
Інструкції завантаження
Ви можете отримати доступ до датасетів BUDOVA через бібліотеку Hugging Face datasets:
pip install datasetsЗавантажити мовленнєвий датасет:
from datasets import load_dataset
speech = load_dataset("budova/speech-uk-construction")
print(speech["train"][0])Завантажити текстовий корпус:
from datasets import load_dataset
corpus = load_dataset("budova/text-uk-construction")
print(corpus["train"].features)Завантажити лексикон:
from datasets import load_dataset
lexicon = load_dataset("budova/construction-lexicon")
print(lexicon["train"][0])Приклади використання Python
Fine-tune модель Whisper на мовленнєвих даних BUDOVA:
from transformers import WhisperForConditionalGeneration
from transformers import WhisperProcessor
from datasets import load_dataset
model = WhisperForConditionalGeneration.from_pretrained(
"openai/whisper-small"
)
processor = WhisperProcessor.from_pretrained(
"openai/whisper-small"
)
dataset = load_dataset("budova/speech-uk-construction")
# Попередня обробка та код тренування нижче
# Див. повні приклади у GitHub-репозиторіїЗапустити NER на будівельному тексті:
from transformers import pipeline
ner = pipeline(
"ner",
model="budova/ner-uk-construction",
aggregation_strategy="simple"
)
text = "Застосування арматури класу A500C"
entities = ner(text)
print(entities)Ліцензія
Ресурси BUDOVA опубліковані під наступними ліцензіями:
- Датасети: CC-BY 4.0
- Моделі: Apache 2.0
- Код: MIT License
При використанні ресурсів BUDOVA, будь ласка, цитуйте проєкт. Див. розділ відкритих даних для BibTeX-цитати.