
Cohere lanzó Command A+, un modelo Sparse Mixture‑of‑Experts (MoE) de 218B parámetros publicado bajo licencia Apache 2.0. El lanzamiento consolida cuatro variantes previas — Command A, Command A Reasoning, Command A Vision y Command A Translate — en una única arquitectura pensada para flujos agentivos empresariales que combinan razonamiento, recuperación de información y procesamiento de documentos multimodales. Esto facilita integrar agentes, pipelines RAG y tareas multilingües en entornos productivos.
Arquitectónicamente, Command A+ es un transformador decoder‑only Sparse MoE con 218B parámetros totales y 25B parámetros activos durante la inferencia. Incorpora 128 expertos, de los cuales 8 están activos por token, además de un experto compartido aplicado a todos los tokens. Las capas de atención alternan atención de ventana deslizante con Rotational Positional Embeddings y bloques de atención global sin embeddings posicionales en proporción 3:1. El enrutamiento emplea un selector por token con sigmoide normalizado sobre los logits top‑k.
El modelo admite entradas multimodales (texto e imagen) y uso de herramientas, y genera salidas orientadas a texto, razonamiento y acciones con herramientas. Soporta un contexto de entrada de hasta 128K tokens y una generación máxima de 64K tokens, ampliando el alcance para tareas largas como análisis de documentos extensos o sesiones de agente prolongadas.
Para reducir barreras de cómputo, Cohere ofrece tres variantes de cuantización con requisitos mínimos de GPU: BF16 (4× B200 o 8× H100), FP8 (2× B200 o 4× H100) y W4A4 (1× B200 o 2× H100), siendo W4A4 la recomendada. La cuantización NVFP4 W4A4 se aplica únicamente a los expertos MoE, mientras que la ruta de atención permanece en precisión completa. Para mitigar pérdidas de calidad se usa Quantization‑Aware Distillation; la compañía reporta diferencias de calidad insignificantes entre las cuantizaciones.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.