Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності

Дослідницьке партнерство з EPFL та ETH Zürich

Рамка співпраці

Проєкт BUDOVA уклав формальну дослідницьку угоду з EPFL та ETH Zürich — двома провідними технічними університетами Європи. Співпраця здійснюється в межах програми LINGUA Open Call, фінансованої Microsoft AI for Good Lab.

Партнерство будується навколо щоквартальних дослідницьких спринтів, спільного керівництва аспірантами та спільних майлстоунів. Idiap Research Institute при EPFL надає досвід у мовленнєвій обробці, а Language Technology Group ETH — методи NER для малоресурсних мов.

Спільний керівний комітет зустрічається щомісяця для узгодження пріоритетів та координації публікацій. Всі результати відкриті відповідно до мандату відкритої науки LINGUA.

Технічний внесок

Дослідники EPFL надають попередньо навчені багатомовні мовленнєві енкодери, навчені на 50+ мовах, включаючи кілька слов'янських. Це значно зменшує обсяг українських даних, необхідних для досягнення конкурентного WER.

Команда ETH Zürich зосереджується на міжмовному трансферному навчанні для NER. Їх підхід донавчає багатомовні трансформери (XLM-R, mBERT) на високоресурсних слов'янських NER-датасетах перед адаптацією до українського будівельного тексту, досягаючи покращення F1 до 12%.

  • Спільні настанови анотації: гармонізовані набори NER-тегів, сумісні з Universal Dependencies
  • Оцінювальні бенчмарки: стандартизовані тестові набори для порівняння ASR та NER
  • Пайплайни аугментації даних: генерація синтетичних даних через зворотний переклад та парафразування

Спільні ресурси

Ключова перевага консорціуму LINGUA — доступ до спільних обчислювальних ресурсів. BUDOVA використовує інфраструктуру Microsoft Azure AI, надану через програму AI for Good, включаючи GPU-кластери (A100 80GB) для навчання моделей.

Окрім обчислювальних ресурсів, партнерство сприяє обміну даними за суворими протоколами конфіденційності. Анонімізовані проміжні представлення (ембединги, карти уваги) обмінюються без передачі сирих персональних даних, забезпечуючи відповідність GDPR.

  • Реєстр моделей: приватна організація Hugging Face для обміну чекпойнтами
  • Платформа анотації: спільний Label Studio з інтерфейсами для будівельного домену
  • Внутрішня вікі: база знань для експериментальних протоколів та найкращих практик