Оцінка
Лідерборд бенчмарків
Продуктивність моделей на тестовому сеті BUDOVA. Виходить разом з v1.0 з реальними fine-tune запусками; числа нижче — орієнтовні цілі.
Превʼю · v1.0 з реальними runs| # | Модель | NER F1 | Перплексія | Term acc. |
|---|---|---|---|---|
| 1 | BUDOVA-XLM-R-base (наш)Domain-adapted XLM-R, LoRA fine-tune на BUDOVA v1.0 | 0.891+0.27 | 11.2-18.10 | 0.880+0.22 |
| 2 | Liberta-UK-largeУкраїнська LM з supervised NER head | 0.782+0.16 | 15.4-13.90 | 0.740+0.08 |
| 3 | XLM-R-large (zero-shot)Без fine-tune на BUDOVA | 0.651+0.03 | 22.4-6.90 | 0.520-0.14 |
| 4 | mBERT-baseМультимовний бейслайн | 0.612 | 26.8-2.50 | 0.480-0.18 |
| 5 | GPT-4o (few-shot)5-shot промпт, без fine-tune | 0.598 | — | 0.610-0.05 |
| 6 | Випадковий бейслайнРівномірне призначення міток | 0.072 | — | 0.160 |