Tokenization
Why a domain tokenizer matters
Generic tokenizers chop Ukrainian construction terms into subword soup. A domain-aware tokenizer keeps concepts intact — fewer tokens means cheaper inference and stronger signal.
Preview · approximate simulationInput text
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
67tokens
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51tokens−24%
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51tokens−24%
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
36tokens−46% vs GPT
These are browser-side approximations of each tokenizer’s behaviour, not real runs. Shapes match: GPT splits Cyrillic aggressively, SentencePiece-based models preserve more morphology, and the BUDOVA-aware variant keeps multi-word domain terms as a single token via lexicon lookup.