Superhuman перенёс inference на FMAPI Provisioned Throughput и добился 200K+ QPS при P99 <1

Новость

Редактор новостной ленты

5/8/2026, 10:05:54 PM

Superhuman перенёс inference на FMAPI Provisioned Throughput и добился 200K+ QPS при P99 <1

Superhuman мигрировал с DIY vLLM‑стека на FMAPI Provisioned Throughput и теперь обслуживает кастомную LLM с более чем 200 000 QPS при P99‑латентности ниже 1 секунды; изменение увеличило пропускную способность и снизило стоимость без регрессий качества.

Superhuman перевёл inference своей кастомной LLM с DIY vLLM‑стека на FMAPI Provisioned Throughput и достиг пропускной способности свыше 200 000 QPS при P99‑латентности менее 1 секунды. Переход обеспечил масштабирование обработки запросов до уровня крупного сервиса и позволил одновременно сохранить субсекундную задержку — ключевой показатель для интерактивных приложений. Переезд сопровождался совместными инженерными оптимизациями, которые подняли GPU‑throughput на 60%, увеличив производительность с 750 до 1 200 QPS на H100‑pod. В работе применили FP8‑квантование, устранили CPU‑overhead и оптимизировали attention‑ядра под архитектуру Hopper, что вместе дало существенный прирост эффективности на уровне вычислительного стека.

По результатам команды, проведённые изменения увеличили общую пропускную способность и снизили стоимость инференса без регрессий качества модели. Внедрение режима Provisioned Throughput стало опорой для стабильного обслуживания пиковых нагрузок и поддержания низкой латентности при высокой плотности запросов.

Источники

Databricks Blog · 5/8/2026

Ответы (0)

Пока нет ответов в этой теме.