Вступ
З радістю оголошуємо офіційний запуск проєкту BUDOVA — Building Ukrainian Domain-Specific, Open Voice & Text Archives. Ця ініціатива спрямована на створення першого комплексного відкритого датасету української будівельної мови для досліджень та застосувань ШІ.
За підтримки Microsoft AI for Good Lab через LINGUA Open Call, у співпраці з EPFL та ETH Zürich, BUDOVA вирішує критичну проблему браку українських мовних ресурсів для ШІ, особливо в спеціалізованих технічних доменах.
Чому BUDOVA важливий
Попри 30–46 мільйонів носіїв, українська залишається критично недорепрезентованою в ШІ-технологіях. Менше 0.6% веб-контенту українською, а технічних мовних датасетів для будівельної галузі практично не існує.
Потреби України у відбудові — оцінені у $524 мільярди — роблять ШІ-інструменти для будівництва не просто корисними, а необхідними. BUDOVA надасть фундаментальні мовні ресурси для створення цих інструментів.
Що ми створюємо
BUDOVA створить три ключові ресурси:
- Мовленнєвий датасет: 100+ годин анотованих записів будівельного мовлення з транскрипціями усіх основних українських діалектів (північний, південно-західний та південно-східний).
- Текстовий корпус: 100M+ токенів будівельної документації — ДБН, технічні специфікації, протоколи безпеки з NER-анотаціями.
- Будівельний лексикон: 5–10K доменних термінів — будматеріали, технології, стандарти безпеки та нормативна лексика.
Всі результати будуть опубліковані під відкритими ліцензіями (CC-BY 4.0 для даних, Apache 2.0 для моделей, MIT для коду) та розміщені на Hugging Face і Zenodo.
Хронологія проєкту
Проєкт розрахований на 24 місяці (січень 2026 – грудень 2027) у п'ять фаз:
- Фаза 1 (Місяці 1–3): Налагодження інфраструктури, угоди з партнерами, протоколи GDPR
- Фаза 2 (Місяці 4–15): Поетапний збір даних — 25 год. мовлення + 25M токенів щоквартально
- Фаза 3 (Місяці 6–18): Двоетапна анотація та валідація
- Фаза 4 (Місяці 12–21): Розробка базових моделей ASR і NER
- Фаза 5 (Місяці 21–24): Фінальний реліз на Hugging Face і Zenodo з DOI
Приєднуйтеся
Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті. Незалежно від того, чи ви NLP-дослідник, будівельний інженер чи лінгвіст, зацікавлений українською, ми вітаємо ваш внесок.
Відвідайте наш розділ контактів, щоб зв'язатися з командою, або ознайомтеся з документацією, щоб дізнатися більше про наші датасети та методологію.