
Команды EAGLE, vLLM и TorchSpec выпустили EAGLE 3.1 — целенаправленное обновление speculative decoding, которое решает критическую эксплуатационную проблему «attention drift», приводившую к снижению качества и откатам в продакшне. Attention drift проявлялся при увеличении глубины спекуляции: drafter всё сильнее смещал внимание от исходного контекста к собственным сгенерированным токенам, что ухудшало соответствие ответов исходным подсказкам и системным промптам. Для инженеров это значимый шаг: исправление убирает источник неожиданных деградаций в реальных чат‑шаблонах и при длинных контекстах.
Авторы проследили два основных механизма drift: во‑первых, дисбаланс «fused input representation», при котором целевые скрытые состояния начинают доминировать в объединённом представлении; во‑вторых, нарастание величины скрытых состояний из‑за ненормализованного residual path. Вместе эти эффекты делали drafter склонным «дописать» ранее сгенерированные токены вместо рекурсивного обращения к исходному контексту, особенно при глубокой спекуляции и нетипичных системных промптах, что и приводило к падению качества accepted spans.
EAGLE 3.1 вводит две ключевые архитектурные правки: FC‑нормализацию после каждого целевого скрытого состояния и перед FC‑слоем, а также подачу post‑norm скрытых состояний на следующий шаг декодирования. FC‑нормализация ограничивает рост величины скрытых состояний и стабилизирует fused representation; передача post‑norm состояний превращает вызовы drafter в более рекурсивные вычисления, вместо простого «наклеивания» слоёв. лучшее экстраполирование обучения во время инференса, повышенная робастность при длинных контекстах и к вариациям chat‑шаблонов и системных промптов, а также более предсказуемая длина accepted spans. В отдельных длинно‑контекстных сценариях acceptance length выросла до 2× относительно предыдущей версии.
Поддержка инфраструктуры обучения и развёртывания также расширена: TorchSpec предоставляет оптимизированные инструменты для тренировки EAGLE 3.1, снижая накладные расходы и упрощая эксперименты. Команда обучила и опубликовала на HuggingFace пример draft‑модели EAGLE 3.1 для Kimi K2.6, демонстрирующую рабочий пайплайн с TorchSpec и vLLM. Интеграция в vLLM выполнена как config‑driven расширение существующей реализации EAGLE 3: добавлена поддержка FC‑нормализации и post‑norm обратной связи, убраны жёсткие допущения о целевых скрытых состояниях и сохранена обратная совместимость с checkpointami EAGLE 3.
Для инженеров это означает возможность подменять draft‑модели без рефакторинга критического кода и сниженный риск отката при деплое.
Источники
Ответы (0)
Пока нет ответов в этой теме.