StepFun presenta Step 3.7 Flash, modelo MoE multimodal de 198B con modo Advisor y contexto de 256k

News

5/30/2026, 12:32:46 AM

StepFun presenta Step 3.7 Flash, modelo MoE multimodal de 198B con modo Advisor y contexto de 256k

StepFun lanzó Step 3.7 Flash, un modelo Mixture‑of‑Experts de 198.000 millones de parámetros con entrada visual nativa, ventana de contexto de 256k tokens, rendimiento hasta 400 tokens/seg y licencia Apache 2.

StepFun lanzó Step 3.7 Flash, un modelo Mixture‑of‑Experts (MoE) de 198.000 millones de parámetros pensado para ejecutar agentes de programación y flujos de búsqueda con entrada visual nativa. El anuncio destaca mayor estabilidad en llamadas a herramientas frente a Step 3.5 Flash y promete reducir costes operativos y mejorar la predictibilidad en despliegues agenticos.

En su arquitectura, Step 3.7 Flash combina un backbone de lenguaje de 196B parámetros con un encoder visual ViT de 1.8B que se inyecta directamente en el contexto del lenguaje. En inferencia se activan aproximadamente 11B parámetros por token; la ventana de contexto alcanza 256k tokens, el rendimiento puede llegar a 400 tokens/seg y la licencia del modelo es Apache 2.0. El modelo ofrece tres niveles de razonamiento — low, medium, high-para ajustar latencia y coste según el caso de uso.

StepFun reporta mejoras en benchmarks de código respecto a la versión 3.5: en SWE‑Bench Pro sube a 56.26% desde 51.3%, y en Terminal‑Bench 2.1 alcanza 59.55% frente a 53.37%. En SWE‑MTLG marca 72.42%. En pruebas internas de Step‑SWE‑Bench la variación entre harnesses se estrecha: Hermes Agent 67.5% vs 60.0%, OpenClaw 67.0% vs 47.0%, KiloCode 67.5% vs 59.0% y RooCode 64.5% vs 43.0%; Claude Code y OpenCode se sitúan en los rangos reportados por la compañía.

Una de las novedades operativas es Advisor Mode, que automatiza el bucle agentico — llamada a herramientas, lectura de resultados e iteración— y escala a un modelo advisor mayor solo en puntos críticos como planificación o recuperación. Según StepFun, con Advisor Mode activo en SWE‑Bench Verified se alcanza el 97% del rendimiento de Claude Opus 4.6 a aproximadamente una novena parte del coste por tarea ($0.19 frente a $1.76).

Fuentes

MarkTechPost AI · 5/29/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás