
StepFun представила Step 3.7 Flash — мультимодальную sparse Mixture‑of‑Experts модель с общим объёмом 198 млрд параметров, нативным визуальным энкодером, контекстным окном 256k токенов и режимом Advisor для оптимизации затрат.
StepFun анонсировала Step 3.7 Flash — мультимодальную sparse Mixture‑of‑Experts (MoE) модель, ориентированную на agentic‑сценарии: вызов внешних инструментов, фильтрацию результатов и итеративную сборку ответов. Модель объединяет 196 млрд параметров в языковом бэкбоне и отдельный 1.8 млрд визуальный энкодер (ViT), суммарно 198 млрд; при инференсе на каждый токен активируется примерно 11 млрд параметров, что даёт вычислительную нагрузку уровня плотной модели ~11B при сохранении «бюджета» в 198B. Step 3.7 поддерживает контекст до 256k токенов, пропускную способность до ~400 ток/с и распространяется по лицензии Apache 2.0.
Архитектура делает визуальный модуль отдельным блоком, который «впрыскивает» представления изображений в контекст языкового бэкбона — принципиальное отличие от Step 3.5, у которой не было нативной мультимодальной поддержки. MoE‑подход означает, что в каждом форвард‑паспе срабатывает лишь подмножество «экспертов», а StepFun предлагает три уровня глубины рассуждений — low, medium и high-чтобы разработчики могли балансировать задержку и вычисления.
Step 3.7 нацелена на случаи, где агент последовательно вызывает инструменты и комбинирует их выходы: улучшенная надёжность взаимодействия с инструментами и встроенная визуальная обработка должны повысить устойчивость таких рабочих потоков по сравнению с предыдущей версией. Для работы с изображениями модель предлагает два пути: Visual Search Tool-для распознавания и проверки длиннохвостых или свежих сущностей, и Python Tool-для точечных операций с изображениями (кадрирование, bounding box, пиксельные преобразования).
По бенчмаркам для кодирующих агентов Step 3.7 показывает заметный прирост: на SWE‑Bench Pro-56.26% против 51.3% у Step 3.5, на Terminal‑Bench 2.1 — 59.55% против 53.37%, а на SWE‑MTLG-72.42%. Внутренние измерения StepFun также указывают на более узкую дисперсию результатов: Step 3.7 варьируется от 64.5% до 71.5% по разным наборам (например, Hermes Agent 67.5% против 60.0% у 3.5), тогда как 3.5 демонстрировала разброс 43%–73%, что обещает большую предсказуемость в гетерогенных production‑окружениях.
В визуальной части SimpleVQA с поиском Step 3.7 набирает 79.16%, сопоставимо с GPT 5.5 (79.11%) и выше Kimi K2.6 (78.24%) и GLM 5V Turbo (78.20%). Для тонких визуальных задач заявлены показатели V-95.29%, HR — Bench 4K-89.13% и HR — Bench 8K-86.34%. На long‑horizon задаче Android Daily модель показала 61.87% — выше Kimi K2.6 (53.36%) и немного уступая лидеру Gemini 3 Flash (63.21%).
StepFun также выделяет «эмергентное» комбинированное использование визуальных и не‑визуальных инструментов (например, генерация фронтенд‑кода с последующей отрисовкой и инспекцией GUI). Для оптимизации стоимости реализован Advisor Mode по образцу стратегии «advisor»: основной цикл агента исполняется локально, а эскалация к более крупному советнику происходит лишь в ключевых точках (планирование, восстановление после ошибок).
Источники
Ответы (0)
Пока нет ответов в этой теме.