Hugging Face Datasets
Dataset Explorer
Preview and explore BUDOVA datasets before downloading.
budova/speech-uk-construction
Annotated construction speech — collection in progress, target 100+ hours
~45 GBWAV/FLAC + JSON-linesCC-BY 4.0train / validation / testASR, Speaker ID
Published with v1.0 — in collection nowbudova/text-uk-construction
Construction documentation with NER — collection in progress, target 100M+ tokens
~2.1 GBJSON-linesCC-BY 4.0train / validation / testNER, Text Classification
Published with v1.0 — in collection nowbudova/construction-lexicon
5-10K bilingual construction terms
~12 MBJSONCC-BY 4.0fullTranslation, Terminology
Published with v1.0 — in collection nowSample Records
Preview of the text corpus data format.
| ID | Text | Source | Entities | Category |
|---|---|---|---|---|
| doc_001 | Застосування арматури класу A500C для фундаментних конструкцій згідно ДБН... | dbn | 4 | materials |
| doc_042 | Монтаж опалубки перекриття виконується після перевірки несучої здатності... | spec | 3 | process |
| doc_108 | Протипожежний захист сталевих колон забезпечується нанесенням вогнезахисного... | safety | 5 | safety |
| doc_215 | Бетонна суміш класу C25/30 з додаванням пластифікатора для підвищення... | dbn | 3 | materials |
| doc_330 | Геодезичний контроль вертикальності стін здійснюється теодолітом з точністю... | spec | 2 | process |
Quick Start
pip install datasets
from datasets import load_dataset
ds = load_dataset("budova/speech-uk-construction")
print(ds["train"][0])Data Format
{
"text": "Застосування арматури класу A500C...",
"labels": [
{"start": 20, "end": 30, "label": "material", "text": "A500C"}
],
"domain": "reinforcement",
"validation_score": 0.95
}Datasets are in active collection. Public Hugging Face releases ship with v1.0; live progress is on the Coverage page.
Live collection progress