Цей сайт використовує лише необхідне сховище браузера для автентифікації та налаштувань. Файли cookie для відстеження не використовуються. Політика конфіденційності

Методологія збору даних: створення мовленнєвого корпусу будівельної галузі

Протокол запису

Запис автентичного будівельного мовлення вимагає ретельно розроблених протоколів польового запису. Наші польові групи використовують професійні портативні рекордери (Zoom F6, Sound Devices MixPre-6 II) з спрямованими петличними мікрофонами для ізоляції мовлення від шуму важкої техніки.

Сесії проводяться на активних будівельних майданчиках на різних етапах — фундаментні роботи, каркасне будівництво, оздоблення — для охоплення повного спектру доменної лексики.

  • Тип об’єкта: житлове, комерційне, інфраструктурне будівництво
  • Рівень шуму: вимірюється в дБА біля позиції запису
  • Умови запису: приміщення, відкрите повітря, напівзакриті простори

Рекрутинг мовців

Різноманітність мовців є ключовою для побудови надійного корпусу для навчання ASR. BUDOVA залучає учасників за трьома напрямками: регіональний діалект (північний — поліський, слобожанський; південно-західний — волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський; південно-східний — степовий), професійна роль (інженери, керівники ділянок, кваліфіковані робітники) та демографічні показники (вік, стать). Мета — мінімум 200 унікальних мовців з балансованим представництвом усіх діалектних груп.

Рекрутинг здійснюється через партнерство з будівельними компаніями, профспілками та центрами професійної підготовки в Київській, Львівській, Одеській, Дніпропетровській, Харківській, Закарпатській, Чернівецькій, Івано-Франківській, Волинській та інших областях. Кожен учасник підписує форму інформованої згоди відповідно до GDPR.

Мовці отримують компенсацію за свій час і заповнюють короткі соціолінгвістичні анкети для фіксації діалектних особливостей та професійного досвіду.

Контроль якості

Необроблені польові записи проходять багатоетапний контроль якості. Перший етап — автоматична перевірка співвідношення сигнал/шум (SNR): сегменти нижче 15 дБ позначаються для ручного перегляду, нижче 10 дБ — виключаються. Цільова медіана SNR корпусу — понад 20 дБ.

Транскрипція відбувається у два етапи: первинна транскрипція навченими лінгвістами в Praat та ELAN, потім незалежна верифікація другим транскриптором. Міжанотаторна узгодженість (каппа Коена) має перевищувати 0.85.

  • Валідація вимушеного вирівнювання: автоматичні оцінки вирівнювання позначають розбіжності
  • Аудит діаризації: перевірка міток мовців у багатомовцевих записах
  • Повнота метаданих: кожен сегмент має містити всі обов'язкові поля