
Платформа добавила высококачественные англоязычные наборы от Appen Inc. и DataoceanAI, но оставила их приватными, чтобы предотвратить целевую оптимизацию под тестовые примеры.
Open ASR Leaderboard объявил о включении в свою оценочную экосистему новых англоязычных наборов данных от Appen Inc. и DataoceanAI, но намеренно сохранил эти сплиты приватными. Организаторы объясняют решение желанием минимизировать риск целевой оптимизации под тестовые наборы (benchmaxxing) и предотвращать возможное загрязнение публичных тестов.
Перечень сплитов включает как scripted, так и conversational данные по нескольким акцентам: Appen Scripted — AU (1.42 ч, 49/51 M/F), CA (1.53 ч, 52/48), IN (1.02 ч, 49/51), US (1.45 ч, 49/51); Appen Conversational — IN (1.37 ч, 51/49), US003 (1.64 ч, 49/51), US004 (1.65 ч, 49/51); DataoceanAI Scripted US (2.43 ч, 54/46) и упоминание DataoceanAI Scripted GB. Для отдельных сплитов явно указаны вариации в оформлении транскриптов: наличие или удаление пунктуации и смены регистра, учёт дизфлюенсий и спонтанности речи.
Политика подсчёта метрик сохранена: Average WER по умолчанию продолжит рассчитываться только на публичных наборах, а включение приватных сплитов для просмотра их влияния доступно через отдельный переключатель. В анонсе приводят логику решения цитатой Goodhart’s Law — «когда мера становится целью, она перестаёт быть хорошей мерой» — как обоснование стремления к более честной оценке реальной устойчивости моделей. Технические и организационные меры направлены на стандартизацию и воспроизводимость. Все тест‑сеты собраны в единый датасет на Hub для просмотра, выводы моделей и транскрипты нормализуются (удаление пунктуации и регистра, применение американской орфографии). Нормализатор основан на нормализаторе Whisper. При этом код интерфейса и скрипты оценки остаются с открытым исходным кодом, что позволяет сообществу проверять процедуры и воспроизводить результаты.
Организаторы описывают приватные высококачественные сплиты как «репеллент» против benchmaxxing: они дают возможность оценивать устойчивость и реальную производительность систем без прямого раскрытия тестовых примеров. С момента запуска лидерборда в сентябре 2023 года платформа привлекла более 710 тыс. визитов, и сообщество активно участвует в развитии процедур оценки. В будущих планах — продолжать добавлять новые наборы и настройки оценки, чтобы лучше отражать реальные сценарии использования и дополнительно снижать возможности целевой оптимизации моделей. Организаторы подчёркивают, что универсальной ASR‑модели не существует: разные системы показывают различные сильные стороны на американском английском, акцентах и в многоканальных или многоязычных сценариях.
Источники
Ответы (0)
Пока нет ответов в этой теме.