Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності

Запуск проєкту BUDOVA

Вступ

З радістю оголошуємо офіційний запуск проєкту BUDOVABuilding Ukrainian Domain-Specific, Open Voice & Text Archives. Ця ініціатива спрямована на створення першого комплексного відкритого датасету української будівельної мови для досліджень та застосувань ШІ.

За підтримки Microsoft AI for Good Lab через LINGUA Open Call, у співпраці з EPFL та ETH Zürich, BUDOVA вирішує критичну проблему браку українських мовних ресурсів для ШІ, особливо в спеціалізованих технічних доменах.

Чому BUDOVA важливий

Попри 30–46 мільйонів носіїв, українська залишається критично недорепрезентованою в ШІ-технологіях. Менше 0.6% веб-контенту українською, а технічних мовних датасетів для будівельної галузі практично не існує.

Потреби України у відбудові — оцінені у $524 мільярди — роблять ШІ-інструменти для будівництва не просто корисними, а необхідними. BUDOVA надасть фундаментальні мовні ресурси для створення цих інструментів.

Що ми створюємо

BUDOVA створить три ключові ресурси:

  • Мовленнєвий датасет: 100+ годин анотованих записів будівельного мовлення з транскрипціями усіх основних українських діалектів (північний, південно-західний та південно-східний).
  • Текстовий корпус: 100M+ токенів будівельної документації — ДБН, технічні специфікації, протоколи безпеки з NER-анотаціями.
  • Будівельний лексикон: 5–10K доменних термінів — будматеріали, технології, стандарти безпеки та нормативна лексика.

Всі результати будуть опубліковані під відкритими ліцензіями (CC-BY 4.0 для даних, Apache 2.0 для моделей, MIT для коду) та розміщені на Hugging Face і Zenodo.

Хронологія проєкту

Проєкт розрахований на 24 місяці (січень 2026 – грудень 2027) у п'ять фаз:

  • Фаза 1 (Місяці 1–3): Налагодження інфраструктури, угоди з партнерами, протоколи GDPR
  • Фаза 2 (Місяці 4–15): Поетапний збір даних — 25 год. мовлення + 25M токенів щоквартально
  • Фаза 3 (Місяці 6–18): Двоетапна анотація та валідація
  • Фаза 4 (Місяці 12–21): Розробка базових моделей ASR і NER
  • Фаза 5 (Місяці 21–24): Фінальний реліз на Hugging Face і Zenodo з DOI

Приєднуйтеся

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті. Незалежно від того, чи ви NLP-дослідник, будівельний інженер чи лінгвіст, зацікавлений українською, ми вітаємо ваш внесок.

Відвідайте наш розділ контактів, щоб зв'язатися з командою, або ознайомтеся з документацією, щоб дізнатися більше про наші датасети та методологію.