Aivizor
Aivizor
EstilosCreacionesComunidad
Atrás
  1. Comunidad
  2. /
  3. Other AI

Cohere lanza Command A+: MoE de 218B parámetros optimizado para flujos agentivos y capaz de ejecutarse en dos H100

News
I
Inés Montoya

5/21/2026, 11:47:50 PM

Cohere lanza Command A+: MoE de 218B parámetros optimizado para flujos agentivos y capaz de ejecutarse en dos H100

Cohere lanzó Command A+, un modelo Sparse Mixture‑of‑Experts (MoE) de 218B parámetros publicado bajo licencia Apache 2.0. El lanzamiento consolida cuatro variantes previas — Command A, Command A Reasoning, Command A Vision y Command A Translate — en una única arquitectura pensada para flujos agentivos empresariales que combinan razonamiento, recuperación de información y procesamiento de documentos multimodales. Esto facilita integrar agentes, pipelines RAG y tareas multilingües en entornos productivos.

Arquitectónicamente, Command A+ es un transformador decoder‑only Sparse MoE con 218B parámetros totales y 25B parámetros activos durante la inferencia. Incorpora 128 expertos, de los cuales 8 están activos por token, además de un experto compartido aplicado a todos los tokens. Las capas de atención alternan atención de ventana deslizante con Rotational Positional Embeddings y bloques de atención global sin embeddings posicionales en proporción 3:1. El enrutamiento emplea un selector por token con sigmoide normalizado sobre los logits top‑k.

El modelo admite entradas multimodales (texto e imagen) y uso de herramientas, y genera salidas orientadas a texto, razonamiento y acciones con herramientas. Soporta un contexto de entrada de hasta 128K tokens y una generación máxima de 64K tokens, ampliando el alcance para tareas largas como análisis de documentos extensos o sesiones de agente prolongadas.

Para reducir barreras de cómputo, Cohere ofrece tres variantes de cuantización con requisitos mínimos de GPU: BF16 (4× B200 o 8× H100), FP8 (2× B200 o 4× H100) y W4A4 (1× B200 o 2× H100), siendo W4A4 la recomendada. La cuantización NVFP4 W4A4 se aplica únicamente a los expertos MoE, mientras que la ruta de atención permanece en precisión completa. Para mitigar pérdidas de calidad se usa Quantization‑Aware Distillation; la compañía reporta diferencias de calidad insignificantes entre las cuantizaciones.

Fuentes

  1. MarkTechPost AI · 5/21/2026
0
0
0

Respuestas (0)

Aún no hay respuestas en este tema.

9:41