LINGUA Open CallMicrosoft AI for Good

Building Ukrainian Construction Language for AI

BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives — перший відкритий датасет української технічної мови будівельної галузі для мовлення та тексту, що сприяє розвитку ШІ‑технологій в Україні.

Дослідити проєкт Відкриті дані

71+

годин мовлення (ціль)

71M+

токенів тексту (ціль)

372B

USD відбудови

CC-BY 4.0

ліцензія

BUDOVA Pipeline01 / 04

input

tokens

арматурнийкаркасфундаменту

entities

MATарматурний

ELMкаркас

ELMфундаменту

confidence

—

Processing···

Ініціатива

LINGUA Open Call

Ініціатива Microsoft AI for Good Lab у рамках EU Digital Unlock, спрямована на підтримку цифрової інклюзії для малоресурсних мов Європи та побудову мовних ресурсів для 10 європейських мов.

Microsoft

Фінансування до $50,000

Грантова підтримка збору мовних даних для малоресурсних мов Європи.

Azure обчислювальні ресурси

Кредити на хмарні обчислення до 2 років для обробки та валідації.

Технічна підтримка

Дослідницька співпраця з AI for Good Lab, EPFL та ETH Zürich.

Відкриті моделі

Інтеграція з Apertus, EuroLLM, SmolLM3 та іншими моделями.

Виклик

Чому це критично важливо

Попри 30–46 мільйонів носіїв, українська залишається критично недорепрезентованою в ШІ-технологіях — особливо у спеціалізованих доменах.

<0.6%

веб-контенту українською

Цифрове виключення

Жодних технічних мовних датасетів, систем розпізнавання мовлення для будмайданчиків чи ШІ-інструментів для українських будівельних норм.

діалектні групи, 15+ говірок

Діалектна різноманітність

Північна, південно-західна (волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський) та південно-східна діалектні групи не задокументовані в технічних контекстах — ШІ-системи ризикують збоями для нестандартних носіїв.

15–25%

розрив у продуктивності

Морфологічна складність

Кирилиця, 7 відмінків, 3 роди, рухомий наголос — унікальні виклики токенізації з розривом продуктивності відносно англійської.

Що ми створюємо

Відкриті ресурси для будівельної галузі

Перший комплексний датасет технічної української мови з діалектним покриттям усіх основних регіонів України.

Speech

Мовленнєвий датасет

100+ годин анотованого мовлення будівельників з транскрипціями, що покривають північний, південно-західний та південно-східний діалекти.

<25%WER

>0.70Cohen's κ

Text

Текстовий корпус

100M+ токенів будівельної документації — ДБН, технічні специфікації, протоколи безпеки з NER-анотаціями.

>0.85NER F1

5–10Kнових термінів

Infrastructure

Технічна інфраструктура

Базові моделі ASR і NER, пайплайни обробки даних, документація за стандартами Datasheets for Datasets. Все доступно на Hugging Face та Zenodo.

WAV/FLACLossless

DOIPersistent

Прогнозований вплив

Speech

100h+

Text

100M+

NER F1

>0.85

ASR WER

<25%

Хронологія

24 місяці, 5 фаз

Поетапне розгортання з квартальними релізами для зворотного зв’язку від спільноти.

01 / 05Фаза 1

Інфраструктура та підготовка

Місяці 1–3 · Січ – Бер 2026

Налагодження інфраструктури, угоди з партнерами, протоколи GDPR, рекрутинг учасників.

02 / 05Фаза 2

Збір даних

Місяці 4–15 · Кві 2026 – Бер 2027

Поетапний збір: 25 год. мовлення + 25M токенів щоквартально до досягнення цільових 100+ год. та 100M+ токенів.

03 / 05Фаза 3

Анотація та валідація

Місяці 6–18 · Паралельно зі збором

Двоетапна валідація: краудсорсингова транскрипція, потім експертна перевірка. Inter-annotator agreement > 0.70.

04 / 05Фаза 4

Розробка базових моделей

Місяці 12–21 · Січ – Вер 2027

Тренування ASR та NER моделей на зібраних даних. Досягнення WER < 25% для будівельної термінології.

05 / 05Фаза 5

Реліз та трансфер

Місяці 21–24 · Вер – Гру 2027

Фінальний реліз датасетів на Hugging Face та Zenodo з DOI. Документація, передача на сталу підтримку.

Датасети

Відкриті дослідницькі ресурси

Масштабні датасети та бенчмарки для навчання, оцінки та тестування NLP-моделей української будівельної галузі.

Мовленнєвий датасет

100+годин мовлення

Анотовані записи будівельного мовлення з транскрипціями усіх основних українських діалектів — обговорення на будмайданчиках, інструктажі, консультації з усієї України.

WAV / MP3 / WebM48 kHz моноЦіль SNR ≥ 20 dB

Hugging Face

Текстовий корпус

100M+текстових токенів

Будівельна документація з NER-анотаціями — ДБН, технічні специфікації, протоколи безпеки та проєктна документація.

JSON-linesNER-анотаціїСтруктуровані

Hugging Face

Будівельний лексикон

5–10Kдоменних термінів

Доменна термінологія — будматеріали, технології, стандарти безпеки та нормативна лексика будівельних субдоменів.

ДвомовнийСтруктурованийЗ пошуком

Hugging Face

МоваУкраїнська (uk-UA) · Північний, південно-західний та південно-східний діалекти

ЛіцензіяCC-BY 4.0 (дані) · Apache 2.0 (моделі) · MIT (код)

ХостингHugging Face · Zenodo (DOI) · GitHub

ПриватністьGDPR · Анонімізація голосу · Видалення PII

Приклади

Живі приклади з корпусу.

Як BUDOVA розмічає українську будівельну мову — мітки сутностей, регістру та контексту (ілюстративні приклади; доточнена модель — у релізі v1.0).

«Монолітні залізобетонні несучі конструкції підвищеної відповідальності повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014.»

Регістр: Формальний · нормативний
Матеріал: Залізобетон монолітний
Джерело: ДБН В.1.1-12:2014
NER теги: 4 сутності · 0 неоднозначностей

Відкриті ресурси

Повна прозорість. Без обмежень.

Всі результати — дані, моделі, код — під відкритими ліцензіями.

Датасети

Мовленнєвий та текстовий корпуси з повними анотаціями, метаданими та будівельним лексиконом 5–10K термінів.

CC-BY 4.0Hugging FaceZenodo

Базові моделі

Fine-tuned ASR модель (Whisper / Wav2Vec2) та NER моделі для будівельного домену з відтворюваними скриптами.

Apache 2.0GitHubHF Models

Інфраструктура

Пайплайни обробки, утиліти анонімізації, воркфлои валідації — для реплікації іншими малоресурсними проєктами.

MIT LicenseGitHubDocs

Готові почати?

Завантажте наші датасети з Hugging Face та почніть працювати з українськими будівельними мовними даними.

Переглянути датасети

Як цитувати

Якщо ви використовуєте ресурси BUDOVA у своєму дослідженні, будь ласка цитуйте:

@misc{budova2026,
  title     = {BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives},
  author    = {Dolhopolov, Serhii},
  year      = {2026},
  publisher = {Hugging Face & Zenodo},
  license   = {CC-BY-4.0},
  url       = {https://huggingface.co/datasets/budova}
}

Результати

Результати проєкту

Конкретні дослідницькі результати та відкриті ресурси, що створюються протягом життєвого циклу проєкту.

01 / 04

3датасети

Релізи датасетів

Версіоновані мовленнєві та текстові датасети, опубліковані на Hugging Face та Zenodo з повною документацією та DOI.

25%ETA Q4 2026

Інфраструктура та протоколи GDPR
Перші 25 год. мовлення зібрано
Текстовий корпус v0.1

02 / 04

2+моделі

Базові моделі

Fine-tuned ASR (Whisper / Wav2Vec2) та NER моделі для українського будівельного домену з відтворюваними скриптами.

5%ETA Q2 2027

Архітектуру моделі обрано
Налаштування пайплайну тренування
Оцінка бенчмарків

03 / 04

3+статей

Наукові публікації

Рецензовані публікації на провідних конференціях NLP та ШІ, що документують методологію, бенчмарки та результати.

10%ETA Q3 2027

Огляд літератури завершено
Чернетка методологічної статті
Подання на конференцію

04 / 04

100%open-source

Відкриті інструменти

Пайплайни обробки, утиліти анонімізації, воркфлои валідації та документація за стандартами Datasheets for Datasets.

15%ETA Q4 2027

Структуру репозиторію створено
Пайплайн анонімізації
Воркфлои валідації

Дослідницька група

Команда проєкту

Міждисциплінарна команда з експертизою в ШІ, NLP, будівництві, кібербезпеці та управлінні даними.

01 / 01Project Team Lead

Сергій Долгополов

KNUCA AI Lab · Аспірант, комп’ютерні науки

Дослідник ШІ та підприємець, спеціалізується на обробці природної мови. Засновник KernelGlide — ШІ-рішення для 10+ клієнтів у будівництві. Головний дослідник державного гранту (UAH 2.9M) з мультимодального аналізу контенту. Автор підручника "Моделювання задач ШІ" (546 стор.).

Portfolio Email

Топ контриб’юторів

01
Станьте першим контриб’ютором!
/annotate
00annot.

Host institution

Київський національний університет будівництва і архітектури

Заснований у 1930 р. · 95 років лідерства в будівельній освіті та дослідженнях

knuba.edu.ua

Долучитись

Три шляхи участі

Всі шляхи

Анотувати тексти

Пройтись по наявним NER-задачам у платформі — виділяти матеріали, інструменти, процеси, виміри, конструкції та безпеку в реальних будівельних документах.

Подати текст

Поділіться будівельними документами, на які ви маєте права — ДБН, специфікації, кошториси, польові нотатки. Джерела переглядаються адміном і перетворюються на задачі.

Записати говірку

Запис 30с-2хв мовлення на будівельному майданчику у вашому діалекті. Анонімний ID спікера, прозора згода, внесок у збалансований діалектний корпус.

Звідки дані

Регіональне покриття

Відкрити мапу

— / 25

Областей покрито

—

Записів мовлення

—

Годин аудіо

—

Унікальних спікерів

Проти альтернатив

Чому BUDOVA

Повне порівняння

Критерій	BUDOVA	UberText 2.0
Speech + text
NER-анотації		Частково
Мультидіалектне мовлення	Заплановано: 27 регіонів
Платформа анотації

Що недопредставлене

Чесні обмеження

Повний аудит

Добре представлені

Бетон та залізобетон92%

Нормативний формальний регістр88%

Центральний діалектний регіон81%

Недопредставлені

Західний діалектний регіон28%

Польовий регістр мовлення24%

Жіночі голоси18%

Нещодавнє

Останні релізи

Всі релізи

v0.4Квіт 2026

Посилення платформи. Скидання паролю, endpoint агрегації IAA, API для coverage/provenance, редизайн auth-сторінок, доставка email через ACS.

Поточна

v0.3Квіт 2026

Azure deploy завершено: власний домен budov.org , нічні PG-бекапи, Application Insights, Playwright smoke-тести у CI/CD, PostHog product analytics.…

v0.2Бер 2026

Анотаційна платформа v1: створення задач, NER-анотатор з редагуванням span-ів, unskip, admin-панель, завантаження та запис мовлення в браузері, редактор лексико…

Building Ukrainian Construction Language for AI

LINGUA Open Call

Фінансування до $50,000

Azure обчислювальні ресурси

Технічна підтримка

Відкриті моделі

Чому це критично важливо

Цифрове виключення

Діалектна різноманітність

Морфологічна складність

Відкриті ресурси для будівельної галузі

Мовленнєвий датасет

Текстовий корпус

Технічна інфраструктура

24 місяці, 5 фаз

Інфраструктура та підготовка

Збір даних

Анотація та валідація

Розробка базових моделей

Реліз та трансфер

Відкриті дослідницькі ресурси

Мовленнєвий датасет

Текстовий корпус

Будівельний лексикон

Живі приклади з корпусу.

Повна прозорість. Без обмежень.

Датасети

Базові моделі

Інфраструктура

Результати проєкту

Релізи датасетів

Базові моделі

Наукові публікації

Відкриті інструменти

Команда проєкту

Сергій Долгополов

Три шляхи участі

Анотувати тексти

Подати текст

Записати говірку

Регіональне покриття

Чому BUDOVA

Чесні обмеження

Останні релізи

Приєднуйтесь до BUDOVA