Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Оцінка

Лідерборд бенчмарків

Продуктивність моделей на тестовому сеті BUDOVA. Виходить разом з v1.0 з реальними fine-tune запусками; числа нижче — орієнтовні цілі.

Превʼю · v1.0 з реальними runs
#МодельNER F1ПерплексіяTerm acc.
1
BUDOVA-XLM-R-base (наш)Domain-adapted XLM-R, LoRA fine-tune на BUDOVA v1.0
0.891+0.2711.2-18.100.880+0.22
2
Liberta-UK-largeУкраїнська LM з supervised NER head
0.782+0.1615.4-13.900.740+0.08
3
XLM-R-large (zero-shot)Без fine-tune на BUDOVA
0.651+0.0322.4-6.900.520-0.14
4
mBERT-baseМультимовний бейслайн
0.61226.8-2.500.480-0.18
5
GPT-4o (few-shot)5-shot промпт, без fine-tune
0.5980.610-0.05
6
Випадковий бейслайнРівномірне призначення міток
0.0720.160
Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab