Завантаження тексту BUDOVA
П’ять рядків datasets.load_dataset() — плюс як фільтрувати по домену та дивитись на NER-анотації.
СкороRunnable Colab-ноутбуки з прикладами роботи з корпусом BUDOVA — завантаження, навчання бейслайнів, оцінка.
П’ять рядків datasets.load_dataset() — плюс як фільтрувати по домену та дивитись на NER-анотації.
СкороБазова NER-модель на восьми типах BUDOVA. Включає оцінку на test-сеті.
СкороОцінюємо off-the-shelf український ASR на зразках BUDOVA, порівнюємо WER по діалектах і доменах.
СкороМінімальний BPE токенайзер, доучений на BUDOVA-лексиконі — знижує кількість токенів для будівельних промптів.
СкороВідтворіть кожне число з головної сторінки — coverage, лічильники по доменах, IAA.
СкороЗапакувати анотовану підмножину з експорту платформи та опублікувати в репозиторій Hugging Face.
СкороНоутбуки публікуються разом з кожною версією датасету. Посилання стають активними після релізу v1.0.
Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.