Cohere выпустила Command A+: 218B Sparse MoE‑модель для агентских рабочих процессов, работающая на двух H100 GPU

Новость

Редактор новостной ленты

5/21/2026, 10:38:16 PM

Cohere выпустила Command A+: 218B Sparse MoE‑модель для агентских рабочих процессов, работающая на двух H100 GPU

Cohere выпустила Command A+, открытый 218B‑параметровый Sparse Mixture‑of‑Experts (MoE) модель, предназначенную для корпоративных агентских рабочих процессов и доступную под лицензией Apache 2.0. Модель объединяет возможности четырёх предыдущих версий — Command A, Command A Reasoning, Command A Vision и Command A Translate — в одном масштабируемом решении, что упрощает развертывание и интеграцию наборов функциональностей. Это важно для компаний, которым нужны высокая производительность при обработке агентских задач и минимальные требования к вычислениям.

Command A+ построена как декодер‑only Sparse MoE‑трансформер с суммарно 218B параметров и 25B активных параметров при инференсе. Архитектура содержит 128 экспертов, из которых для каждого токена активируются 8, при этом к каждому токену дополнительно применяется один общий эксперт. Такой подход позволяет маршрутизировать токены только через часть экспертных подсетей, сохраняя объём активных вычислений на уровне модели с 25B параметров во время вывода.

Слои внимания в модели чередуются: используется сочетание скользящего (sliding‑window) внимания с Rotational Positional Embeddings (RoPE) и глобальных слоёв внимания без позиционных эмбеддингов в соотношении 3:1. Слой Sparse MoE обучался в полностью dropless‑режиме и использует token‑choice router с нормализованным сигмоидом по top‑k логитам экспертов для каждого токена — подробности механизма маршрутизации сохраняют гарантию выбора ограниченного числа экспертов на токен. Command A+ поддерживает мультиформатные входы и выходы: входные модальности — текст, изображение и использование инструментов; выходные модальности — текст, reasoning и использование инструментов. Модель рассчитана на длинные контексты: максимальная длина входа составляет 128K токенов, а максимальная длина генерации — 64K токенов, что делает её пригодной для многостраничной документообработки и сложных цепочек рассуждений.

Для развёртывания предусмотрены три варианта квантизации с разными минимальными требованиями к GPU. Вариант BF16 (16‑бит) требует 4× B200 или 8× H100; FP8 (8‑бит) — 2× B200 или 4× H100; версия W4A4 (4‑бит) позволяет запуск на одном B200 или на 2× H100, то есть модель может работать при конфигурации из двух H100 GPU. Такие опции дают гибкость при выборе баланса между качеством и стоимостью инференса. Command A+ позиционируется как решение для высокопроизводительных агентских рабочих процессов, объединяющее мультимодальные и многоязычные возможности предыдущих моделей в единой архитектуре с низким активным профилем вычислений при выводе. Модель уже опубликована как открытый проект и доступна для интеграции и тестирования в корпоративных сценариях.

Источники

MarkTechPost AI · 5/21/2026

Ответы (0)

Пока нет ответов в этой теме.