Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Colab туторіали

Notebooks

Runnable Colab-ноутбуки з прикладами роботи з корпусом BUDOVA — завантаження, навчання бейслайнів, оцінка.

Quickstart

Завантаження тексту BUDOVA

П’ять рядків datasets.load_dataset() — плюс як фільтрувати по домену та дивитись на NER-анотації.

Час: 5 хвЗалізо: CPU
Скоро
Тренування

Fine-tune XLM-R на BUDOVA NER

Базова NER-модель на восьми типах BUDOVA. Включає оцінку на test-сеті.

Час: 45 хвЗалізо: T4 GPU
Скоро
Оцінка

ASR на будівельному мовленні

Оцінюємо off-the-shelf український ASR на зразках BUDOVA, порівнюємо WER по діалектах і доменах.

Час: 25 хвЗалізо: T4 GPU
Скоро
Утиліта

Lexicon-aware токенайзер

Мінімальний BPE токенайзер, доучений на BUDOVA-лексиконі — знижує кількість токенів для будівельних промптів.

Час: 10 хвЗалізо: CPU
Скоро
Аналіз

Статистика і покриття

Відтворіть кожне число з головної сторінки — coverage, лічильники по доменах, IAA.

Час: 15 хвЗалізо: CPU
Скоро
Публікація

Push своєї підмножини у HF

Запакувати анотовану підмножину з експорту платформи та опублікувати в репозиторій Hugging Face.

Час: 20 хвЗалізо: CPU
Скоро

Ноутбуки публікуються разом з кожною версією датасету. Посилання стають активними після релізу v1.0.

Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab