Tokenization

Why a domain tokenizer matters

Generic tokenizers chop Ukrainian construction terms into subword soup. A domain-aware tokenizer keeps concepts intact — fewer tokens means cheaper inference and stronger signal.

Preview · approximate simulation

Input text

GPT-4oTiktoken · English-first

Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.

67tokens

mT5 · XLM-RSentencePiece · multilingual

51tokens−24%

Liberta-UKBPE · Ukrainian-trained

51tokens−24%

BUDOVA-awareSentencePiece + domain whitelist

36tokens−46% vs GPT

These are browser-side approximations of each tokenizer’s behaviour, not real runs. Shapes match: GPT splits Cyrillic aggressively, SentencePiece-based models preserve more morphology, and the BUDOVA-aware variant keeps multi-word domain terms as a single token via lexicon lookup.

Join BUDOVA