Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Токенізація

Навіщо доменний токенайзер

Загальні токенайзери рубають українські будівельні терміни на subword-кашу. Доменно-обізнаний токенайзер зберігає поняття цілими — менше токенів = дешевша інференс і сильніший сигнал.

Превʼю · апроксимація
Вхідний текст
GPT-4oTiktoken · English-first
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
67токенів
mT5 · XLM-RSentencePiece · multilingual
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51токенів−24%
Liberta-UKBPE · Ukrainian-trained
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51токенів−24%
BUDOVA-awareSentencePiece + domain whitelist
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
36токенів−46% vs GPT

Це браузерні апроксимації поведінки кожного токенайзера, не справжні прогони. Форма правильна: GPT агресивно рубає кирилицю, SentencePiece-моделі зберігають більше морфології, а BUDOVA-aware варіант тримає багатослівні терміни одним токеном через whitelist лексикона.

Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab