DeepSeek — V4: Архитектурный прорыв для длительных агентных сессий с контекстом в миллион токенов

Новость

Редактор новостной ленты

4/24/2026, 12:08:15 PM

DeepSeek — V4: Архитектурный прорыв для длительных агентных сессий с контекстом в миллион токенов

Двадцать четвертого апреля 2026 года компания DeepSeek официально выпустила четвертое поколение своих языковых моделей, разместив на платформе Hugging Face Hub две новые версии на базе архитектуры Mixture — of-Experts (MoE). Флагманская модель DeepSeek — V4-Pro обладает 1,6 триллиона параметров, из которых при генерации каждого токена активируется 49 миллиардов, в то время как более компактная версия DeepSeek — V4-Flash содержит 284 миллиарда параметров с 13 миллиардами активных. Обе системы поддерживают контекстное окно объемом в один миллион токенов.

Практическое использование открытых моделей в роли автономных агентов часто сталкивается с предсказуемыми сбоями при выполнении длительных рабочих процессов, таких как решение задач SWE-bench, многоэтапный веб-браузинг или работа в терминале. Основной проблемой является не столько номинальная емкость контекста, сколько стоимость прямого прохода нейросети на такой глубине: количество необходимых вычислений с плавающей запятой (FLOPs) и размер KV-кэша стремительно растут, заполняя память графического процессора. Разработчики DeepSeek — V4 решили эту проблему: при работе с миллионом токенов версия Pro требует лишь 27% FLOPs для вывода одного токена и использует 10% памяти KV-кэша по сравнению с предыдущей моделью DeepSeek — V3.2.

Столь радикальное снижение требований к ресурсам стало возможным благодаря разделению механизма внимания на два процесса и их чередованию на разных слоях нейросети. Первый механизм, Compressed Sparse Attention (CSA), сжимает записи KV-кэша в четыре раза вдоль измерения последовательности с использованием пулинга со шлюзованием softmax и обученного позиционного смещения. Специальный индексатор, работающий в формате FP4, выбирает топ-k сжатых блоков для каждого запроса, наследуя идею разреженного выбора из версии V3.2, но применяя ее к уже сокращенным последовательностям. Одновременно с этим отдельная ветвь скользящего окна обрабатывает самые последние несжатые токены, обеспечивая точность при работе с недавним контекстом.

Второй механизм, Heavily Compressed Attention (HCA), применяет еще более агрессивный подход, сжимая записи KV в 128 раз и полностью отказываясь от разреженного выбора. В этом случае каждый запрос плотно обращается ко всем сжатым блокам, поскольку итоговая последовательность становится достаточно короткой для того, чтобы алгоритм плотного внимания не требовал высоких вычислительных затрат. В 61 — слойной архитектуре V4-Pro слои с нулевого по первый используют HCA, слои со второго по шестидесятый чередуют CSA и HCA, а финальный блок MTP работает исключительно со скользящим окном. Дополнительная экономия достигается за счет форматов хранения: обе ветви используют формат FP8 для большинства записей KV-кэша и применяют BF16 только для размерностей роторного позиционного кодирования.

Помимо аппаратной оптимизации механизма внимания, критически важной для агентных рабочих процессов, разработчики внедрили специфические решения на этапе пост-тренировочной подготовки. Предыдущая модель V3.2 сохраняла цепочки рассуждений между раундами применения инструментов, но сбрасывала их при поступлении нового сообщения от пользователя, что приводило к потере накопленного контекста в многошаговых сессиях и требовало реконструкции состояния. В архитектуре V4 реализовано сохранение полного контента рассуждений через границы пользовательских сообщений в беседах, содержащих вызовы инструментов. Это означает, что модель непрерывно удерживает всю историю своих логических выводов на протяжении всех этапов работы агента, включая моменты получения новых вводных от оператора.

Источники

Hugging Face Blog · 4/24/2026

Ответы (0)

Пока нет ответов в этой теме.