Superhuman alcanza 200,000 QPS en producción tras migrar a Databricks FMAPI

News

5/10/2026, 9:40:35 PM

Superhuman alcanza 200,000 QPS en producción tras migrar a Databricks FMAPI

Superhuman migró su pila DIY vLLM a Databricks FMAPI Provisioned Throughput y ahora sirve en producción un LLM personalizado capaz de más de 200,000 QPS, manteniendo la latencia P99 por debajo del segundo. El cambio importa porque permite atender un alto volumen de inferencias con baja latencia, mejorando la experiencia en servicios sensibles a la demora; afecta principalmente a usuarios y sistemas que requieren respuestas a alta frecuencia.

Las optimizaciones conjuntas elevaron el rendimiento por GPU en un 60%, pasando de 750 a 1,200 QPS por pod H100. Para lograr esto se aplicaron cuantización FP8, reducción de la carga en CPU y kernels de atención optimizados en la arquitectura Hopper; según las pruebas, esas mejoras no introdujeron regresiones de calidad y además contribuyeron a reducir costes operativos.

FMAPI escaló a más de 250 GPUs y emplea balanceo de carga, autoscaling y arranque rápido de contenedores para sostener la demanda. Las pruebas de estrés en preproducción confirmaron que se cumplen los objetivos de disponibilidad y la meta de latencia P99, lo que respalda la capacidad de la plataforma para mantener rendimiento y eficiencia al aumentar la escala.

Fuentes

Databricks Blog · 5/8/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás