Токенізація
Навіщо доменний токенайзер
Загальні токенайзери рубають українські будівельні терміни на subword-кашу. Доменно-обізнаний токенайзер зберігає поняття цілими — менше токенів = дешевша інференс і сильніший сигнал.
Превʼю · апроксимаціяВхідний текст
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
67токенів
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51токенів−24%
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
51токенів−24%
Монолітні залізобетонні несучі конструкції з арматурою B400C повинні проєктуватися з урахуванням сейсмічних навантажень у відповідності з ДБН В.1.1-12:2014. Мінімальний захисний шар 30 мм.
36токенів−46% vs GPT
Це браузерні апроксимації поведінки кожного токенайзера, не справжні прогони. Форма правильна: GPT агресивно рубає кирилицю, SentencePiece-моделі зберігають більше морфології, а BUDOVA-aware варіант тримає багатослівні терміни одним токеном через whitelist лексикона.