Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Позиціонування

Як BUDOVA відрізняється

Порівняння з іншими українськомовними корпусами за критеріями, важливими для доменної NLP.

КритерійBUDOVAUberText 2.0CC-100 UKUA-GEC
Покриття доменуБудівельна термінологіяСпеціалізованоЗагальний вебЗагальний вебГраматичні помилки
Speech + text
NER-анотації8 типів сутностейЧастково
Згода анотаторівFleiss κНе оголошеноНе застосовноκ оголошено
Мультидіалектне мовленняЗаплановано: 27 регіонів
ЛіцензіяCC-BY 4.0CC-BY 4.0Змішана / fair useCC-BY 4.0
Розмір (приблизно)Ціль: 100M токенів, 100 год мовлення6B токенів~2B токенів30k речень
Платформа анотаціїВідкритий внесок
Доступність на HF

Розміри корпусів на момент останнього релізу. BUDOVA націлена на глибину вузького домену; загальні корпуси — на ширину. Доповнюють один одного для подальшої NLP-роботи з українською.

Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab