Методологія збору даних: створення мовленнєвого корпусу будівельної галузі

Опубліковано: 1 лютого 2026 р.2 хв читання

Протокол запису

Запис автентичного будівельного мовлення вимагає ретельно розроблених протоколів польового запису. Наші польові групи використовують професійні портативні рекордери (Zoom F6, Sound Devices MixPre-6 II) з спрямованими петличними мікрофонами для ізоляції мовлення від шуму важкої техніки.

Сесії проводяться на активних будівельних майданчиках на різних етапах — фундаментні роботи, каркасне будівництво, оздоблення — для охоплення повного спектру доменної лексики.

Тип об’єкта: житлове, комерційне, інфраструктурне будівництво
Рівень шуму: вимірюється в дБА біля позиції запису
Умови запису: приміщення, відкрите повітря, напівзакриті простори

Рекрутинг мовців

Різноманітність мовців є ключовою для побудови надійного корпусу для навчання ASR. BUDOVA залучає учасників за трьома напрямками: регіональний діалект (північний — поліський, слобожанський; південно-західний — волинський, галицький, подільський, закарпатський, буковинський, гуцульський, бойківський, лемківський; південно-східний — степовий), професійна роль (інженери, керівники ділянок, кваліфіковані робітники) та демографічні показники (вік, стать). Мета — мінімум 200 унікальних мовців з балансованим представництвом усіх діалектних груп.

Рекрутинг здійснюється через партнерство з будівельними компаніями, профспілками та центрами професійної підготовки в Київській, Львівській, Одеській, Дніпропетровській, Харківській, Закарпатській, Чернівецькій, Івано-Франківській, Волинській та інших областях. Кожен учасник підписує форму інформованої згоди відповідно до GDPR.

Мовці отримують компенсацію за свій час і заповнюють короткі соціолінгвістичні анкети для фіксації діалектних особливостей та професійного досвіду.

Контроль якості

Необроблені польові записи проходять багатоетапний контроль якості. Перший етап — автоматична перевірка співвідношення сигнал/шум (SNR): сегменти нижче 15 дБ позначаються для ручного перегляду, нижче 10 дБ — виключаються. Цільова медіана SNR корпусу — понад 20 дБ.

Транскрипція відбувається у два етапи: первинна транскрипція навченими лінгвістами в Praat та ELAN, потім незалежна верифікація другим транскриптором. Міжанотаторна узгодженість (каппа Коена) має перевищувати 0.85.

Валідація вимушеного вирівнювання: автоматичні оцінки вирівнювання позначають розбіжності
Аудит діаризації: перевірка міток мовців у багатомовцевих записах
Повнота метаданих: кожен сегмент має містити всі обов'язкові поля

Поділитися:X/Twitter LinkedIn