
Superhuman мигрировал с DIY vLLM‑стека на FMAPI Provisioned Throughput и теперь обслуживает кастомную LLM с более чем 200 000 QPS при P99‑латентности ниже 1 секунды; изменение увеличило пропускную способность и снизило стоимость без регрессий качества.
Superhuman перевёл inference своей кастомной LLM с DIY vLLM‑стека на FMAPI Provisioned Throughput и достиг пропускной способности свыше 200 000 QPS при P99‑латентности менее 1 секунды. Переход обеспечил масштабирование обработки запросов до уровня крупного сервиса и позволил одновременно сохранить субсекундную задержку — ключевой показатель для интерактивных приложений. Переезд сопровождался совместными инженерными оптимизациями, которые подняли GPU‑throughput на 60%, увеличив производительность с 750 до 1 200 QPS на H100‑pod. В работе применили FP8‑квантование, устранили CPU‑overhead и оптимизировали attention‑ядра под архитектуру Hopper, что вместе дало существенный прирост эффективности на уровне вычислительного стека.
По результатам команды, проведённые изменения увеличили общую пропускную способность и снизили стоимость инференса без регрессий качества модели. Внедрение режима Provisioned Throughput стало опорой для стабильного обслуживания пиковых нагрузок и поддержания низкой латентности при высокой плотности запросов.
Источники
Ответы (0)
Пока нет ответов в этой теме.