Open ASR Leaderboard añade conjuntos privados de Appen y DataoceanAI para frenar el 'benchmaxxing

News

5/6/2026, 10:49:42 AM

Open ASR Leaderboard añade conjuntos privados de Appen y DataoceanAI para frenar el 'benchmaxxing

El 6 de mayo de 2026 se anunció la incorporación de conjuntos de datos privados, suministrados por Appen Inc. Y DataoceanAI, al Open ASR Leaderboard con la intención explícita de reducir el riesgo de benchmaxxing y la contaminación de los conjuntos de prueba. La decisión preserva una porción cerrada del benchmark para mantener una referencia de evaluación menos vulnerable a optimizaciones dirigidas a superar puntuaciones públicas.

Los conjuntos privados agregados cubren voz en inglés y combinan segmentos scriptados y conversacionales, con múltiples acentos representados. Appen aporta particiones scriptadas y conversacionales con las siguientes duraciones: Scripted AU (Australian) 1.42 h, Scripted CA (Canadian) 1.53 h, Scripted IN (Indian) 1.02 h, Scripted US (American) 1.45 h; además de Conversational IN 1.37 h, Conversational US003 1.64 h y Conversational US004 1.65 h. DataoceanAI contribuye con Scripted US 2.43 h, Scripted GB 2.43 h, Conversational US 8.82 h y Conversational GB 5.96 h. Las transcripciones incluidas varían según el split: algunas vienen puntuadas y con mayúsculas, y otras incorporan marcaje de disfluencias.

La nota editorial invoca la ley de Goodhart —“When a measure becomes a target, it ceases to be a good measure”— para explicar el razonamiento: la apertura y estandarización de benchmarks aumenta su utilidad pero también facilita optimizaciones específicas que degradan la validez de la métrica como indicador general. Por ello, la métrica promedio del leaderboard (Average WER) seguirá computándose por defecto únicamente sobre los conjuntos públicos; los desarrolladores que lo deseen podrán activar una opción para incluir los conjuntos privados y comprobar su impacto en las evaluaciones.

Mantener una fracción de los datos privada persigue dos efectos concretos. Primero, reduce la posibilidad de que equipos de desarrollo sobreajusten modelos a pruebas públicas concretas o exploten vulnerabilidades del benchmark. Segundo, permite obtener métricas focalizadas que evidencien brechas de rendimiento entre condiciones controladas (por ejemplo, audio scriptado con acento americano) y escenarios más complejos o realistas (audio conversacional, acentos no estadounidenses). Para evitar que se persiga un incremento artificial en particiones concretas, la plataforma ha decidido no publicar puntuaciones por cada split individual.

La publicación detalla cómo se agregan las columnas disponibles en la vista de datos privados: “Average WER” se calcula como un macropromedio de las medias por proveedor — es decir, igual peso para cada proveedor de datos—; “Avg Scripted” compendia el macropromedio de todos los conjuntos scriptados; “Avg Conversational” agrupa los conversacionales; y las columnas “Avg US” y “Avg non‑US” ofrecen macropromedios por acento estadounidense y no estadounidense respectivamente. El diseño busca ofrecer vistas agregadas que informen sobre comportamientos generales sin revelar puntuaciones por proveedor que facilitarían benchmaxxing.

Para facilitar la comparabilidad entre modelos y simplificar la navegación, todos los test sets se han consolidado en un único dataset accesible en el Hub, con opciones de previsualización. Antes de la evaluación se aplica un normalizador — basado en el normalizador de Whisper — que elimina puntuación y diferencias de mayúsculas y además mapea a ortografía americana cuando procede, con el objetivo de estandarizar salidas y transcripciones. La interfaz y los scripts de evaluación se publican como código abierto, y la apertura del código ha permitido aportes comunitarios para mejorar el procedimiento de evaluación.

La medida se inscribe en un contexto más amplio sobre la heterogeneidad de capacidades en reconocimiento automático de voz: no existe un único modelo que cubra óptimamente todas las tareas y condiciones. Algunos modelos alcanzan mejores resultados en inglés americano o en audio scriptado, otros están orientados a acentos diversos o tareas multilingües, y otros priorizan la latencia o el manejo de audio conversacional. El objetivo del leaderboard es capturar esa diversidad y ofrecer una visión holística del rendimiento en lugar de una clasificación única y reductiva.

La plataforma recuerda que el Open ASR Leaderboard, lanzado en septiembre de 2023, ha acumulado más de 710,000 visitas desde su inicio. Con los nuevos conjuntos privados se pretende avanzar en la robustez del benchmark frente a optimizaciones de laboratorio; además, se ofrecen audios de muestra que ilustran la variedad de contenido — scripted, conversacional, acrónimos, disfluencias— y una pestaña “Private data” en la interfaz donde los participantes pueden activar la inclusión de estos datos en las evaluaciones.

El procedimiento para evaluar un modelo en los datos privados es sencillo en términos operativos: basta inscribir el modelo en el Open ASR Leaderboard y el equipo ejecutará las evaluaciones pertinentes sobre las particiones públicas y, si el desarrollador lo activa, sobre las privadas. La nota subraya que mantener una parte del corpus en privado busca preservar una medición más fiable del rendimiento real y mitigar prácticas que optimizan únicamente la puntuación en el leaderboard, sin que ello impida transparencias metodológicas sobre cómo se calculan y agregan las métricas.

Fuentes

Hugging Face Blog · 5/6/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás