Позиціонування
Як BUDOVA відрізняється
Порівняння з іншими українськомовними корпусами за критеріями, важливими для доменної NLP.
| Критерій | BUDOVA | UberText 2.0 | CC-100 UK | UA-GEC |
|---|---|---|---|---|
| Покриття доменуБудівельна термінологія | Спеціалізовано | Загальний веб | Загальний веб | Граматичні помилки |
| Speech + text | ||||
| NER-анотації8 типів сутностей | Частково | |||
| Згода анотаторів | Fleiss κ | Не оголошено | Не застосовно | κ оголошено |
| Мультидіалектне мовлення | Заплановано: 27 регіонів | |||
| Ліцензія | CC-BY 4.0 | CC-BY 4.0 | Змішана / fair use | CC-BY 4.0 |
| Розмір (приблизно) | Ціль: 100M токенів, 100 год мовлення | 6B токенів | ~2B токенів | 30k речень |
| Платформа анотаціїВідкритий внесок | ||||
| Доступність на HF |
Розміри корпусів на момент останнього релізу. BUDOVA націлена на глибину вузького домену; загальні корпуси — на ширину. Доповнюють один одного для подальшої NLP-роботи з українською.