Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності
Прозорість

Чесний bias audit

Публікуємо, що корпус над- і недопредставляє, щоб моделі на його основі успадковували відомі сліпі плями, а не приховані.

Добре представлені

~78% записів
Бетон та залізобетонДБН В.2.6-98 та похідні
92%
Нормативний формальний регістрДБН / ДСТУ тексти
88%
Центральний діалектний регіонКиїв, Черкаси, Вінниця
81%
Термінологія матеріалівNER label: material
76%
Конструктивне проєктуванняНесучі, фундаменти
72%

Недопредставлені

~22% записів
Західний діалектний регіонЗакарпаття, Галичина, Буковина
28%
Польовий регістр мовленняНеформальний на майданчику
24%
Жіночі голосиГендерний баланс мовлення
18%
Реставрація / памʼяткиДомен недопредставлений
14%
Південний діалектний регіонОдеса, Миколаїв, Херсон
11%

Як міряємо. Коефіцієнт сильного представлення = частка корпусу, де лейбл, регістр чи регіон присутні, відносно збалансованого очікування (рівномірно по 27 регіонах, 8 NER-типах, 50/50 гендер). Публікуємо недопредставлені категорії одразу.

Як зменшуємо. Платформа анотації свідомо піднімає задачі з недопредставлених категорій у черзі, а шляхи Contribute для мовлення явно віддають пріоритет недопредставленим регіонам.

Співпраця

Приєднуйтесь до BUDOVA

Шукаємо дослідників, будівельних фахівців та мовних спеціалістів для участі у проєкті.

За підтримки
Microsoft AI for Good Lab