Прозорість
Чесний bias audit
Публікуємо, що корпус над- і недопредставляє, щоб моделі на його основі успадковували відомі сліпі плями, а не приховані.
Добре представлені
~78% записівБетон та залізобетонДБН В.2.6-98 та похідні
92%Нормативний формальний регістрДБН / ДСТУ тексти
88%Центральний діалектний регіонКиїв, Черкаси, Вінниця
81%Термінологія матеріалівNER label: material
76%Конструктивне проєктуванняНесучі, фундаменти
72%Недопредставлені
~22% записівЗахідний діалектний регіонЗакарпаття, Галичина, Буковина
28%Польовий регістр мовленняНеформальний на майданчику
24%Жіночі голосиГендерний баланс мовлення
18%Реставрація / памʼяткиДомен недопредставлений
14%Південний діалектний регіонОдеса, Миколаїв, Херсон
11%Як міряємо. Коефіцієнт сильного представлення = частка корпусу, де лейбл, регістр чи регіон присутні, відносно збалансованого очікування (рівномірно по 27 регіонах, 8 NER-типах, 50/50 гендер). Публікуємо недопредставлені категорії одразу.
Як зменшуємо. Платформа анотації свідомо піднімає задачі з недопредставлених категорій у черзі, а шляхи Contribute для мовлення явно віддають пріоритет недопредставленим регіонам.