Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Датасети Hugging Face

Огляд датасетів

Попередній перегляд та дослідження датасетів BUDOVA.

budova/speech-uk-construction
100+ годин анотованого будівельного мовлення
~45 GBWAV/FLAC + JSON-linesCC-BY 4.0train / validation / testASR, Speaker ID
Публікація з релізом v1.0 — зараз триває збір
budova/text-uk-construction
100M+ токенів будівельної документації з NER
~2.1 GBJSON-linesCC-BY 4.0train / validation / testNER, Text Classification
Публікація з релізом v1.0 — зараз триває збір
budova/construction-lexicon
5-10K двомовних будівельних термінів
~12 MBJSONCC-BY 4.0fullTranslation, Terminology
Публікація з релізом v1.0 — зараз триває збір

Зразки записів

Попередній перегляд формату текстового корпусу.

IDТекстДжерелоСутностіКатегорія
doc_001Застосування арматури класу A500C для фундаментних конструкцій згідно ДБН...dbn4матеріали
doc_042Монтаж опалубки перекриття виконується після перевірки несучої здатності...spec3процес
doc_108Протипожежний захист сталевих колон забезпечується нанесенням вогнезахисного...safety5безпека
doc_215Бетонна суміш класу C25/30 з додаванням пластифікатора для підвищення...dbn3матеріали
doc_330Геодезичний контроль вертикальності стін здійснюється теодолітом з точністю...spec2процес

Швидкий старт

pip install datasets

from datasets import load_dataset
ds = load_dataset("budova/speech-uk-construction")
print(ds["train"][0])

Формат даних

{
  "text": "Застосування арматури класу A500C...",
  "labels": [
    {"start": 20, "end": 30, "label": "material", "text": "A500C"}
  ],
  "domain": "reinforcement",
  "validation_score": 0.95
}

Датасети у процесі активного збору. Публічні релізи на Hugging Face — з версією v1.0; живий прогрес — на сторінці Coverage.

Живий прогрес збору