Рамка співпраці
Проєкт BUDOVA уклав формальну дослідницьку угоду з EPFL та ETH Zürich — двома провідними технічними університетами Європи. Співпраця здійснюється в межах програми LINGUA Open Call, фінансованої Microsoft AI for Good Lab.
Партнерство будується навколо щоквартальних дослідницьких спринтів, спільного керівництва аспірантами та спільних майлстоунів. Idiap Research Institute при EPFL надає досвід у мовленнєвій обробці, а Language Technology Group ETH — методи NER для малоресурсних мов.
Спільний керівний комітет зустрічається щомісяця для узгодження пріоритетів та координації публікацій. Всі результати відкриті відповідно до мандату відкритої науки LINGUA.
Технічний внесок
Дослідники EPFL надають попередньо навчені багатомовні мовленнєві енкодери, навчені на 50+ мовах, включаючи кілька слов'янських. Це значно зменшує обсяг українських даних, необхідних для досягнення конкурентного WER.
Команда ETH Zürich зосереджується на міжмовному трансферному навчанні для NER. Їх підхід донавчає багатомовні трансформери (XLM-R, mBERT) на високоресурсних слов'янських NER-датасетах перед адаптацією до українського будівельного тексту, досягаючи покращення F1 до 12%.
- Спільні настанови анотації: гармонізовані набори NER-тегів, сумісні з Universal Dependencies
- Оцінювальні бенчмарки: стандартизовані тестові набори для порівняння ASR та NER
- Пайплайни аугментації даних: генерація синтетичних даних через зворотний переклад та парафразування