Протокол запису
Запис автентичного будівельного мовлення вимагає ретельно розроблених протоколів польового запису. Наші польові групи використовують професійні портативні рекордери (Zoom F6, Sound Devices MixPre-6 II) з спрямованими петличними мікрофонами для ізоляції мовлення від шуму важкої техніки.
Сесії проводяться на активних будівельних майданчиках на різних етапах — фундаментні роботи, каркасне будівництво, оздоблення — для охоплення повного спектру доменної лексики.
- Тип об’єкта: житлове, комерційне, інфраструктурне будівництво
- Рівень шуму: вимірюється в дБА біля позиції запису
- Умови запису: приміщення, відкрите повітря, напівзакриті простори
Рекрутинг мовців
Різноманітність мовців є ключовою для побудови надійного корпусу для навчання ASR. BUDOVA залучає учасників за трьома напрямками: регіональний діалект (північний — поліський, слобожанський; південно-західний — волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський; південно-східний — степовий), професійна роль (інженери, керівники ділянок, кваліфіковані робітники) та демографічні показники (вік, стать). Мета — мінімум 200 унікальних мовців з балансованим представництвом усіх діалектних груп.
Рекрутинг здійснюється через партнерство з будівельними компаніями, профспілками та центрами професійної підготовки в Київській, Львівській, Одеській, Дніпропетровській, Харківській, Закарпатській, Чернівецькій, Івано-Франківській, Волинській та інших областях. Кожен учасник підписує форму інформованої згоди відповідно до GDPR.
Мовці отримують компенсацію за свій час і заповнюють короткі соціолінгвістичні анкети для фіксації діалектних особливостей та професійного досвіду.
Контроль якості
Необроблені польові записи проходять багатоетапний контроль якості. Перший етап — автоматична перевірка співвідношення сигнал/шум (SNR): сегменти нижче 15 дБ позначаються для ручного перегляду, нижче 10 дБ — виключаються. Цільова медіана SNR корпусу — понад 20 дБ.
Транскрипція відбувається у два етапи: первинна транскрипція навченими лінгвістами в Praat та ELAN, потім незалежна верифікація другим транскриптором. Міжанотаторна узгодженість (каппа Коена) має перевищувати 0.85.
- Валідація вимушеного вирівнювання: автоматичні оцінки вирівнювання позначають розбіжності
- Аудит діаризації: перевірка міток мовців у багатомовцевих записах
- Повнота метаданих: кожен сегмент має містити всі обов'язкові поля