Оцінка

Лідерборд бенчмарків

Продуктивність моделей на тестовому сеті BUDOVA. Виходить разом з v1.0 з реальними fine-tune запусками; числа нижче — орієнтовні цілі.

Превʼю · v1.0 з реальними runs

#	Модель	NER F1	Перплексія	Term acc.
1	BUDOVA-XLM-R-base (наш)Domain-adapted XLM-R, LoRA fine-tune на BUDOVA v1.0	0.891+0.27	11.2-18.10	0.880+0.22
2	Liberta-UK-largeУкраїнська LM з supervised NER head	0.782+0.16	15.4-13.90	0.740+0.08
3	XLM-R-large (zero-shot)Без fine-tune на BUDOVA	0.651+0.03	22.4-6.90	0.520-0.14
4	mBERT-baseМультимовний бейслайн	0.612	26.8-2.50	0.480-0.18
5	GPT-4o (few-shot)5-shot промпт, без fine-tune	0.598	—	0.610-0.05
6	Випадковий бейслайнРівномірне призначення міток	0.072	—	0.160

Приєднуйтесь до BUDOVA