Benchmark: Together Inference Engine logra 31% más TPS y 2× mejor TTFT en cargas de agentes de codificación

News

5/24/2026, 1:18:53 AM

Benchmark: Together Inference Engine logra 31% más TPS y 2× mejor TTFT en cargas de agentes de codificación

Resumen y afirmaciones principales: El 19 de mayo de 2026, Alex Angus, Will Van Eaton y Dan Fu publicaron la versión uno de un benchmark de inferencia a escala orientado a agentes de codificación. El documento compara varios motores bajo tráfico diseñado para sesiones reales y concluye que Together Inference Engine entrega 31% más TPS que el siguiente motor OSS más rápido en el mismo hardware y mantiene 2× mejor TTFT en condiciones de saturación. Además, el informe reporta un costo 76% menor frente a Claude Opus 4.6 en la configuración y carga probadas. Los autores anuncian futuras actualizaciones del estudio.

Escenario de prueba y métricas medidas: El benchmark simula cargas de agentes de codificación con contextos muy largos — prompts del orden de ~45k a 200k tokens— y generaciones acotadas, con una media cercana a 450 tokens, p50 de 293 y p99 en 2,230 tokens. Las métricas clave incluyen TPM (input tokens por minuto), TPS (tokens por segundo) por usuario y p50 TTFT; la prueba está diseñada para reflejar sesiones reales con alta concurrencia y churn, donde la latencia percibida y la interacción inmediata son críticas.

Configuración de hardware y parámetros de decodificación: Las comparaciones se realizaron con configuraciones orientadas a baja latencia: cada motor se ejecutó sobre cuatro GPUs NVIDIA B200 por instancia del motor, con la excepción señalada de SGLang que aparece usando 8× B200 en una de las columnas. Para el pipeline de decodificación se aplicó EAGLE speculative decoding con tres tokens de borrador y una tasa de aceptación emergente de aproximadamente 70% según los datos sintéticos realistas empleados en el estudio.

Enfoque técnico y optimizaciones full‑stack: Los autores atribuyen la mejora de rendimiento a un trabajo full‑stack: perfilado end‑to‑end, reescritura de kernels críticos y ajustes de configuración. Entre las técnicas explicadas figura la reducción de sobrecarga en los lanzamientos de kernel y cambios en la planificación de trabajo que permiten mantener baja latencia en escenarios con cache KV muy cargada. El informe enfatiza que la combinación de optimizaciones a nivel de kernel y de sistema resultó determinante para este perfil de uso.

ThunderMLA y diseño de kernels: Una pieza central del documento es ThunderMLA, implementado dentro de la biblioteca de kernels ThunderKittens, que fusiona dos lanzamientos de kernel por paso de decodificación en un megakernel. Esta fusión reduce la sobrecarga de lanzamiento y mejora el rendimiento en decodificación representativa para agentes. Según los autores, ThunderMLA mostró entre 20% y 35% más velocidad frente a la implementación FlashMLA de DeepSeek en cargas de decodificación similares, y los kernels personalizados superaron a las equivalentes de código abierto en TensorRT‑LLM para este perfil.

Importancia del TTFT y comportamiento bajo concurrencia: Los autores subrayan que, para agentes de codificación, la Time to First Token (TTFT) es el factor que determina la percepción de velocidad del desarrollador. En presencia de alta concurrencia y contextos largos, la presión sobre la caché KV y la planificación de trabajo elevan la latencia de prefill y degradan la TTFT antes de que el sistema alcance fallos operativos. Por ello, motores optimizados para largos runs de decode no necesariamente obtendrán el mejor comportamiento en este perfil centrado en interactividad.

Limitaciones, alcance y advertencias de interpretación: Los autores reconocen que esta es la versión uno del benchmark y admiten que algunas configuraciones no fueron afinadas exhaustivamente — por ejemplo SGLang—. El informe distingue configuraciones orientadas a baja latencia de aquellas optimizadas para throughput y advierte que cambiar parámetros (batching, separación prefill/decode u otros ajustes) puede alterar sustancialmente los resultados. En consecuencia, las conclusiones del estudio son específicas al perfil de agentes de codificación y a las opciones de configuración usadas en la prueba. Los autores planean actualizar y ampliar el trabajo en versiones posteriores.

Fuentes

Together AI Blog · 5/19/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás