Degeneración de texto en DharmaOCR: menos del 3% de páginas consumen casi la mitad del tiempo de inferencia

News

5/22/2026, 5:07:52 PM

Degeneración de texto en DharmaOCR: menos del 3% de páginas consumen casi la mitad del tiempo de inferencia

Un equipo que adaptó un modelo pequeño para OCR de documentos PDF descubrió que menos del 3% de las páginas podían consumir casi la mitad del tiempo de pared total durante la inferencia. Esas solicitudes degeneradas no emitían el token EOS y generaban repeticiones hasta alcanzar el tope de tokens configurado, lo que provoca una sobrecarga desproporcionada en la infraestructura de inferencia y reduce el rendimiento del sistema.

El trabajo, publicado junto con un modelo y un espacio de demostración en un repositorio público, observó el mismo patrón en tres conjuntos de datos diferentes. En los registros de inferencia las solicitudes problemáticas se identificaron por su duración excepcional y por barras de tiempo destacadas; en la traza de generación se veía cómo un token o fragmento repetido —a menudo patrones de n‑gramas — se acumulaba en la cola hasta llenar el contexto y disparar el límite de tokens.

Los autores remontan el fenómeno a la degeneración de texto, un fallo descrito desde Holtzman et al. (2020) y caracterizado como un efecto autorreforzante en modelos autoregresivos. Explican que la causa es estructural: el entrenamiento por máxima verosimilitud optimiza la predicción token a token, no la distribución del conjunto completo de salidas, lo que facilita continuidadas que se convierten en bucles repetitivos bajo decodificación estándar.

Las implicaciones para la ingeniería son directas: una sola solicitud degenerada puede generar un volumen de tokens muy superior al de una petición típica con entrada comparable, y como el tiempo de inferencia escala con los tokens generados, acaba ocupando la GPU varias veces más. Ese comportamiento deteriora el throughput por lotes en producción y penaliza la latencia observada por el resto de peticiones concurrentes.

Para mitigar el síntoma en operación se recomiendan contramedidas a nivel de decodificación: aumentar la penalización a la repetición, reducir la temperatura, cambiar de decodificador o abortar el streaming cuando se detecten repeticiones sostenidas. Estas tácticas alivian el problema inmediato, pero los autores insisten en que no atacan la causa raíz y por tanto ofrecen soluciones parciales.

Como prácticas recomendadas, el informe aconseja instrumentar logs de inferencia para detectar repeticiones y ausencia de EOS, medir la contribución de cada solicitud al tiempo de pared y priorizar cambios en el objetivo de entrenamiento que consideren la distribución de salidas, en lugar de depender exclusivamente de ajustes de decodificación. Informe: Team Article (autores Erick Lachmann, Pimenta de Freitas Cardoso y Gabriel Pimenta, entre otros), publicado el 22 de mayo de 2026.

Fuentes

Hugging Face Blog · 5/22/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás