Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
LINGUA Open CallMicrosoft AI for Good

Building Ukrainian Construction Language for AI

BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives — перший відкритий датасет української технічної мови будівельної галузі для мовлення та тексту, що сприяє розвитку ШІ‑технологій в Україні.

01
71+
годин мовлення (ціль)
02
71M+
токенів тексту (ціль)
03
373B
USD відбудови
04
CC-BY 4.0
ліцензія
BUDOVA Pipeline01 / 04
input
""
tokens
арматурнийкаркасфундаменту
entities
MATарматурний
ELMкаркас
ELMфундаменту
confidence
Processing···
Ініціатива

LINGUA Open Call

Ініціатива Microsoft AI for Good Lab у рамках EU Digital Unlock, спрямована на підтримку цифрової інклюзії для малоресурсних мов Європи та побудову мовних ресурсів для 10 європейських мов.

Microsoft

Фінансування до $50,000

Грантова підтримка збору мовних даних для малоресурсних мов Європи.

Azure обчислювальні ресурси

Кредити на хмарні обчислення до 2 років для обробки та валідації.

Технічна підтримка

Дослідницька співпраця з AI for Good Lab, EPFL та ETH Zürich.

Відкриті моделі

Інтеграція з Apertus, EuroLLM, SmolLM3 та іншими моделями.

Виклик

Чому це критично важливо

Попри 30–46 мільйонів носіїв, українська залишається критично недорепрезентованою в ШІ-технологіях — особливо у спеціалізованих доменах.

<0.6%
веб-контенту українською

Цифрове виключення

Жодних технічних мовних датасетів, систем розпізнавання мовлення для будмайданчиків чи ШІ-інструментів для українських будівельних норм.

3
діалектні групи, 15+ говірок

Діалектна різноманітність

Північна, південно-західна (волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський) та південно-східна діалектні групи не задокументовані в технічних контекстах — ШІ-системи ризикують збоями для нестандартних носіїв.

15–25%
розрив у продуктивності

Морфологічна складність

Кирилиця, 7 відмінків, 3 роди, рухомий наголос — унікальні виклики токенізації з розривом продуктивності відносно англійської.

Що ми створюємо

Відкриті ресурси для будівельної галузі

Перший комплексний датасет технічної української мови з діалектним покриттям усіх основних регіонів України.

Мовленнєвий датасет

100+ годин анотованого мовлення будівельників з транскрипціями, що покривають північний, південно-західний та південно-східний діалекти.

<25%WER
>0.70Cohen's κ

Текстовий корпус

100M+ токенів будівельної документації — ДБН, технічні специфікації, протоколи безпеки з NER-анотаціями.

>0.85NER F1
5–10Kнових термінів

Технічна інфраструктура

Базові моделі ASR і NER, пайплайни обробки даних, документація за стандартами Datasheets for Datasets. Все доступно на Hugging Face та Zenodo.

WAV/FLACLossless
DOIPersistent
Прогнозований вплив
Speech
100h+
Text
100M+
NER F1
>0.85
ASR WER
<25%
Хронологія

24 місяці, 5 фаз

Поетапне розгортання з квартальними релізами для зворотного зв’язку від спільноти.

01 / 05Фаза 1

Інфраструктура та підготовка

Місяці 1–3 · Січ – Бер 2026

Налагодження інфраструктури, угоди з партнерами, протоколи GDPR, рекрутинг учасників.

02 / 05Фаза 2

Збір даних

Місяці 4–15 · Кві 2026 – Бер 2027

Поетапний збір: 25 год. мовлення + 25M токенів щоквартально до досягнення цільових 100+ год. та 100M+ токенів.

03 / 05Фаза 3

Анотація та валідація

Місяці 6–18 · Паралельно зі збором

Двоетапна валідація: краудсорсингова транскрипція, потім експертна перевірка. Inter-annotator agreement > 0.70.

04 / 05Фаза 4

Розробка базових моделей

Місяці 12–21 · Січ – Вер 2027

Тренування ASR та NER моделей на зібраних даних. Досягнення WER < 25% для будівельної термінології.

05 / 05Фаза 5

Реліз та трансфер

Місяці 21–24 · Вер – Гру 2027

Фінальний реліз датасетів на Hugging Face та Zenodo з DOI. Документація, передача на сталу підтримку.

Датасети

Відкриті дослідницькі ресурси

Масштабні датасети та бенчмарки для навчання, оцінки та тестування NLP-моделей української будівельної галузі.

Мовленнєвий датасет

100+годин мовлення

Анотовані записи будівельного мовлення з транскрипціями усіх основних українських діалектів — обговорення на будмайданчиках, інструктажі, консультації з усієї України.

WAV / MP3 / WebM48 kHz моноЦіль SNR ≥ 20 dB
Hugging Face

Текстовий корпус

100M+текстових токенів

Будівельна документація з NER-анотаціями — ДБН, технічні специфікації, протоколи безпеки та проєктна документація.

JSON-linesNER-анотаціїСтруктуровані
Hugging Face

Будівельний лексикон

5–10Kдоменних термінів

Доменна термінологія — будматеріали, технології, стандарти безпеки та нормативна лексика будівельних субдоменів.

ДвомовнийСтруктурованийЗ пошуком
Hugging Face
МоваУкраїнська (uk-UA) · Північний, південно-західний та південно-східний діалекти
ЛіцензіяCC-BY 4.0 (дані) · Apache 2.0 (моделі) · MIT (код)
ХостингHugging Face · Zenodo (DOI) · GitHub
ПриватністьGDPR · Анонімізація голосу · Видалення PII
Приклади

Живі приклади з корпусу.

Як BUDOVA розмічає українську будівельну мову — мітки сутностей, регістру та контексту (ілюстративні приклади; доточнена модель — у релізі v1.0).

«Монолітні залізобетонні несучі конструкції підвищеної відповідальності повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014.»

Регістр
Формальний · нормативний
Матеріал
Залізобетон монолітний
Джерело
ДБН В.1.1-12:2014
NER теги
4 сутності · 0 неоднозначностей
Відкриті ресурси

Повна прозорість. Без обмежень.

Всі результати — дані, моделі, код — під відкритими ліцензіями.

Датасети

Мовленнєвий та текстовий корпуси з повними анотаціями, метаданими та будівельним лексиконом 5–10K термінів.

CC-BY 4.0Hugging FaceZenodo

Базові моделі

Fine-tuned ASR модель (Whisper / Wav2Vec2) та NER моделі для будівельного домену з відтворюваними скриптами.

Apache 2.0GitHubHF Models

Інфраструктура

Пайплайни обробки, утиліти анонімізації, воркфлои валідації — для реплікації іншими малоресурсними проєктами.

MIT LicenseGitHubDocs
Готові почати?

Завантажте наші датасети з Hugging Face та почніть працювати з українськими будівельними мовними даними.

Переглянути датасети
Як цитувати

Якщо ви використовуєте ресурси BUDOVA у своєму дослідженні, будь ласка цитуйте:

@misc{budova2026,
  title     = {BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives},
  author    = {Dolhopolov, Serhii},
  year      = {2026},
  publisher = {Hugging Face & Zenodo},
  license   = {CC-BY-4.0},
  url       = {https://huggingface.co/datasets/budova}
}
Результати

Результати проєкту

Конкретні дослідницькі результати та відкриті ресурси, що створюються протягом життєвого циклу проєкту.

01 / 04
3датасети

Релізи датасетів

Версіоновані мовленнєві та текстові датасети, опубліковані на Hugging Face та Zenodo з повною документацією та DOI.

25%ETA Q4 2026
  • Інфраструктура та протоколи GDPR
  • Перші 25 год. мовлення зібрано
  • Текстовий корпус v0.1
02 / 04
2+моделі

Базові моделі

Fine-tuned ASR (Whisper / Wav2Vec2) та NER моделі для українського будівельного домену з відтворюваними скриптами.

5%ETA Q2 2027
  • Архітектуру моделі обрано
  • Налаштування пайплайну тренування
  • Оцінка бенчмарків
03 / 04
3+статей

Наукові публікації

Рецензовані публікації на провідних конференціях NLP та ШІ, що документують методологію, бенчмарки та результати.

10%ETA Q3 2027
  • Огляд літератури завершено
  • Чернетка методологічної статті
  • Подання на конференцію
04 / 04
100%open-source

Відкриті інструменти

Пайплайни обробки, утиліти анонімізації, воркфлои валідації та документація за стандартами Datasheets for Datasets.

15%ETA Q4 2027
  • Структуру репозиторію створено
  • Пайплайн анонімізації
  • Воркфлои валідації
Дослідницька група

Команда проєкту

Міждисциплінарна команда з експертизою в ШІ, NLP, будівництві, кібербезпеці та управлінні даними.

01 / 01Project Team Lead

Сергій Долгополов

KNUCA AI Lab · Аспірант, комп’ютерні науки

Дослідник ШІ та підприємець, спеціалізується на обробці природної мови. Засновник KernelGlide — ШІ-рішення для 10+ клієнтів у будівництві. Головний дослідник державного гранту (UAH 2.9M) з мультимодального аналізу контенту. Автор підручника "Моделювання задач ШІ" (546 стор.).

Топ контриб’юторів
  1. 01
    Станьте першим контриб’ютором!
    /annotate
    00annot.
Host institution
Київський національний університет будівництва і архітектури
Заснований у 1930 р. · 95 років лідерства в будівельній освіті та дослідженнях
knuba.edu.ua
Долучитись

Три шляхи участі

Всі шляхи
01

Анотувати тексти

Пройтись по наявним NER-задачам у платформі — виділяти матеріали, інструменти, процеси, виміри, конструкції та безпеку в реальних будівельних документах.

02

Подати текст

Поділіться будівельними документами, на які ви маєте права — ДБН, специфікації, кошториси, польові нотатки. Джерела переглядаються адміном і перетворюються на задачі.

03

Записати говірку

Запис 30с-2хв мовлення на будівельному майданчику у вашому діалекті. Анонімний ID спікера, прозора згода, внесок у збалансований діалектний корпус.

Звідки дані

Регіональне покриття

Відкрити мапу
— / 25
Областей покрито
Записів мовлення
Годин аудіо
Унікальних спікерів
Проти альтернатив

Чому BUDOVA

Повне порівняння
КритерійBUDOVAUberText 2.0CC-100 UKUA-GEC
Speech + text
NER-анотаціїЧастково
Мультидіалектне мовленняЗаплановано: 27 регіонів
Платформа анотації
Що недопредставлене

Чесні обмеження

Повний аудит
Добре представлені
Бетон та залізобетон92%
Нормативний формальний регістр88%
Центральний діалектний регіон81%
Недопредставлені
Західний діалектний регіон28%
Польовий регістр мовлення24%
Жіночі голоси18%
Нещодавнє

Останні релізи

Всі релізи
v0.4Квіт 2026
Посилення платформи. Скидання паролю, endpoint агрегації IAA, API для coverage/provenance, редизайн auth-сторінок, доставка email через ACS.
Поточна
v0.3Квіт 2026
Azure deploy завершено: власний домен budov.org , нічні PG-бекапи, Application Insights, Playwright smoke-тести у CI/CD, PostHog product analytics.…
v0.2Бер 2026
Анотаційна платформа v1: створення задач, NER-анотатор з редагуванням span-ів, unskip, admin-панель, завантаження та запис мовлення в браузері, редактор лексико…
Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab