This site uses essential browser storage for authentication and preferences. No tracking cookies are used. Privacy Policy
Hugging Face Datasets

Dataset Explorer

Preview and explore BUDOVA datasets before downloading.

budova/speech-uk-construction
Annotated construction speech — collection in progress, target 100+ hours
~45 GBWAV/FLAC + JSON-linesCC-BY 4.0train / validation / testASR, Speaker ID
Published with v1.0 — in collection now
budova/text-uk-construction
Construction documentation with NER — collection in progress, target 100M+ tokens
~2.1 GBJSON-linesCC-BY 4.0train / validation / testNER, Text Classification
Published with v1.0 — in collection now
budova/construction-lexicon
5-10K bilingual construction terms
~12 MBJSONCC-BY 4.0fullTranslation, Terminology
Published with v1.0 — in collection now

Sample Records

Preview of the text corpus data format.

IDTextSourceEntitiesCategory
doc_001Застосування арматури класу A500C для фундаментних конструкцій згідно ДБН...dbn4materials
doc_042Монтаж опалубки перекриття виконується після перевірки несучої здатності...spec3process
doc_108Протипожежний захист сталевих колон забезпечується нанесенням вогнезахисного...safety5safety
doc_215Бетонна суміш класу C25/30 з додаванням пластифікатора для підвищення...dbn3materials
doc_330Геодезичний контроль вертикальності стін здійснюється теодолітом з точністю...spec2process

Quick Start

pip install datasets

from datasets import load_dataset
ds = load_dataset("budova/speech-uk-construction")
print(ds["train"][0])

Data Format

{
  "text": "Застосування арматури класу A500C...",
  "labels": [
    {"start": 20, "end": 30, "label": "material", "text": "A500C"}
  ],
  "domain": "reinforcement",
  "validation_score": 0.95
}

Datasets are in active collection. Public Hugging Face releases ship with v1.0; live progress is on the Coverage page.

Live collection progress