Датасети Hugging Face
Огляд датасетів
Попередній перегляд та дослідження датасетів BUDOVA.
budova/speech-uk-construction
100+ годин анотованого будівельного мовлення
~45 GBWAV/FLAC + JSON-linesCC-BY 4.0train / validation / testASR, Speaker ID
Публікація з релізом v1.0 — зараз триває збірbudova/text-uk-construction
100M+ токенів будівельної документації з NER
~2.1 GBJSON-linesCC-BY 4.0train / validation / testNER, Text Classification
Публікація з релізом v1.0 — зараз триває збірbudova/construction-lexicon
5-10K двомовних будівельних термінів
~12 MBJSONCC-BY 4.0fullTranslation, Terminology
Публікація з релізом v1.0 — зараз триває збірЗразки записів
Попередній перегляд формату текстового корпусу.
| ID | Текст | Джерело | Сутності | Категорія |
|---|---|---|---|---|
| doc_001 | Застосування арматури класу A500C для фундаментних конструкцій згідно ДБН... | dbn | 4 | матеріали |
| doc_042 | Монтаж опалубки перекриття виконується після перевірки несучої здатності... | spec | 3 | процес |
| doc_108 | Протипожежний захист сталевих колон забезпечується нанесенням вогнезахисного... | safety | 5 | безпека |
| doc_215 | Бетонна суміш класу C25/30 з додаванням пластифікатора для підвищення... | dbn | 3 | матеріали |
| doc_330 | Геодезичний контроль вертикальності стін здійснюється теодолітом з точністю... | spec | 2 | процес |
Швидкий старт
pip install datasets
from datasets import load_dataset
ds = load_dataset("budova/speech-uk-construction")
print(ds["train"][0])Формат даних
{
"text": "Застосування арматури класу A500C...",
"labels": [
{"start": 20, "end": 30, "label": "material", "text": "A500C"}
],
"domain": "reinforcement",
"validation_score": 0.95
}Датасети у процесі активного збору. Публічні релізи на Hugging Face — з версією v1.0; живий прогрес — на сторінці Coverage.
Живий прогрес збору