OpenAI описала, как ускорила агентные рабочие процессы в Responses API за счёт WebSockets, кэширования и сокращения лишних сетевых переходов. Проблема стала заметнее из-за роста скорости инференса: когда генерация токенов ускоряется с десятков до сотен и почти тысячи токенов в секунду, накладные расходы API начинают занимать непропорционально большую часть времени.
Типичный цикл Codex выглядит как серия шагов: модель выбирает следующее действие, локальный инструмент выполняет команду, результат отправляется обратно в API, затем процесс повторяется. В сложных задачах таких обменов могут быть десятки. Если каждый шаг требует отдельного синхронного HTTP-запроса, пользователь ждёт не только модель, но и всю инфраструктурную обвязку вокруг неё.
Постоянное соединение позволяет держать контекст соединения и обрабатывать части агентного цикла более инкрементально. Вместо последовательной цепочки запросов OpenAI может перекрывать этапы валидации, pre-inference, sampling и post-inference, а также эффективнее использовать connection — scoped caching. Это уменьшает повторную работу на стороне API и снижает задержку между действиями агента.
OpenAI заявляет ускорение агентных циклов в Responses API на 40% end-to-end. Важно, что речь идёт не о синтетическом ускорении одной генерации, а о полном пользовательском сценарии: от запроса до выполнения инструментов и финального ответа. Для Codex такая оптимизация особенно заметна, потому что агентные задачи состоят из многих итераций чтения файлов, редактирования и запуска тестов.
Для разработчиков это означает, что Responses API становится лучше приспособлен к длинным интерактивным задачам: кодингу, работе с инструментами, браузером, файловой системой и внутренними workflow. Чем больше агент должен делать шагов, тем выше выигрыш от постоянного соединения и кэша.
При этом архитектурный вывод шире: по мере ускорения моделей узким местом становится вся система вокруг них. Командам, которые строят собственных агентов, придётся оптимизировать не только prompt и модель, но и транспорт, кэширование, безопасность, обработку инструментов и стратегию повторных запросов. Именно там теперь всё чаще теряется реальное время пользователя.
Ответы (0)
Пока нет ответов в этой теме.