Фінансування до $50,000
Грантова підтримка збору мовних даних для малоресурсних мов Європи.
BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives — перший відкритий датасет української технічної мови будівельної галузі для мовлення та тексту, що сприяє розвитку ШІ‑технологій в Україні.
Ініціатива Microsoft AI for Good Lab у рамках EU Digital Unlock, спрямована на підтримку цифрової інклюзії для малоресурсних мов Європи та побудову мовних ресурсів для 10 європейських мов.
Грантова підтримка збору мовних даних для малоресурсних мов Європи.
Кредити на хмарні обчислення до 2 років для обробки та валідації.
Дослідницька співпраця з AI for Good Lab, EPFL та ETH Zürich.
Інтеграція з Apertus, EuroLLM, SmolLM3 та іншими моделями.
Попри 30–46 мільйонів носіїв, українська залишається критично недорепрезентованою в ШІ-технологіях — особливо у спеціалізованих доменах.
Жодних технічних мовних датасетів, систем розпізнавання мовлення для будмайданчиків чи ШІ-інструментів для українських будівельних норм.
Північна, південно-західна (волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський) та південно-східна діалектні групи не задокументовані в технічних контекстах — ШІ-системи ризикують збоями для нестандартних носіїв.
Кирилиця, 7 відмінків, 3 роди, рухомий наголос — унікальні виклики токенізації з розривом продуктивності відносно англійської.
Перший комплексний датасет технічної української мови з діалектним покриттям усіх основних регіонів України.
100+ годин анотованого мовлення будівельників з транскрипціями, що покривають північний, південно-західний та південно-східний діалекти.
100M+ токенів будівельної документації — ДБН, технічні специфікації, протоколи безпеки з NER-анотаціями.
Базові моделі ASR і NER, пайплайни обробки даних, документація за стандартами Datasheets for Datasets. Все доступно на Hugging Face та Zenodo.
Поетапне розгортання з квартальними релізами для зворотного зв’язку від спільноти.
Налагодження інфраструктури, угоди з партнерами, протоколи GDPR, рекрутинг учасників.
Поетапний збір: 25 год. мовлення + 25M токенів щоквартально до досягнення цільових 100+ год. та 100M+ токенів.
Двоетапна валідація: краудсорсингова транскрипція, потім експертна перевірка. Inter-annotator agreement > 0.70.
Тренування ASR та NER моделей на зібраних даних. Досягнення WER < 25% для будівельної термінології.
Фінальний реліз датасетів на Hugging Face та Zenodo з DOI. Документація, передача на сталу підтримку.
Масштабні датасети та бенчмарки для навчання, оцінки та тестування NLP-моделей української будівельної галузі.
Анотовані записи будівельного мовлення з транскрипціями усіх основних українських діалектів — обговорення на будмайданчиках, інструктажі, консультації з усієї України.
Hugging FaceБудівельна документація з NER-анотаціями — ДБН, технічні специфікації, протоколи безпеки та проєктна документація.
Hugging FaceДоменна термінологія — будматеріали, технології, стандарти безпеки та нормативна лексика будівельних субдоменів.
Hugging FaceЯк BUDOVA розмічає українську будівельну мову — мітки сутностей, регістру та контексту (ілюстративні приклади; доточнена модель — у релізі v1.0).
«Монолітні залізобетонні несучі конструкції підвищеної відповідальності повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014.»
Всі результати — дані, моделі, код — під відкритими ліцензіями.
Мовленнєвий та текстовий корпуси з повними анотаціями, метаданими та будівельним лексиконом 5–10K термінів.
Fine-tuned ASR модель (Whisper / Wav2Vec2) та NER моделі для будівельного домену з відтворюваними скриптами.
Пайплайни обробки, утиліти анонімізації, воркфлои валідації — для реплікації іншими малоресурсними проєктами.
Завантажте наші датасети з Hugging Face та почніть працювати з українськими будівельними мовними даними.
Переглянути датасетиЯкщо ви використовуєте ресурси BUDOVA у своєму дослідженні, будь ласка цитуйте:
@misc{budova2026,
title = {BUDOVA: Building Ukrainian Domain-Specific, Open Voice & Text Archives},
author = {Dolhopolov, Serhii},
year = {2026},
publisher = {Hugging Face & Zenodo},
license = {CC-BY-4.0},
url = {https://huggingface.co/datasets/budova}
}Конкретні дослідницькі результати та відкриті ресурси, що створюються протягом життєвого циклу проєкту.
Версіоновані мовленнєві та текстові датасети, опубліковані на Hugging Face та Zenodo з повною документацією та DOI.
Fine-tuned ASR (Whisper / Wav2Vec2) та NER моделі для українського будівельного домену з відтворюваними скриптами.
Рецензовані публікації на провідних конференціях NLP та ШІ, що документують методологію, бенчмарки та результати.
Пайплайни обробки, утиліти анонімізації, воркфлои валідації та документація за стандартами Datasheets for Datasets.
Міждисциплінарна команда з експертизою в ШІ, NLP, будівництві, кібербезпеці та управлінні даними.
Дослідник ШІ та підприємець, спеціалізується на обробці природної мови. Засновник KernelGlide — ШІ-рішення для 10+ клієнтів у будівництві. Головний дослідник державного гранту (UAH 2.9M) з мультимодального аналізу контенту. Автор підручника "Моделювання задач ШІ" (546 стор.).
Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.