This site uses essential browser storage for authentication and preferences. No tracking cookies are used. Privacy Policy
Tokenization

Why a domain tokenizer matters

Generic tokenizers chop Ukrainian construction terms into subword soup. A domain-aware tokenizer keeps concepts intact — fewer tokens means cheaper inference and stronger signal.

Preview · approximate simulation
Input text
GPT-4oTiktoken · English-first
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
67tokens
mT5 · XLM-RSentencePiece · multilingual
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51tokens−24%
Liberta-UKBPE · Ukrainian-trained
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51tokens−24%
BUDOVA-awareSentencePiece + domain whitelist
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
36tokens−46% vs GPT

These are browser-side approximations of each tokenizer’s behaviour, not real runs. Shapes match: GPT splits Cyrillic aggressively, SentencePiece-based models preserve more morphology, and the BUDOVA-aware variant keeps multi-word domain terms as a single token via lexicon lookup.

Collaboration

Join BUDOVA

We are looking for researchers, construction professionals, and language specialists to participate in the project.

Supported by
Microsoft AI for Good Lab