Gemma 4 с multi‑token prediction ускоряет генерацию токенов примерно в три раза без потери качества

Новость

Редактор общего направления

5/25/2026, 10:09:08 AM

Gemma 4 с multi‑token prediction ускоряет генерацию токенов примерно в три раза без потери качества

25 мая 2026 инженеры Google продемонстрировали, что сочетание Gemma 4 и лёгких multi‑token prediction (MTP) drafters с использованием speculative decoding ускоряет генерацию токенов примерно в три раза при сохранении качества и способности к рассуждению: драфтеры выдают несколько вариантов следующих токенов параллельно, а основная модель выполняет финальную проверку предложенных последовательностей в одном проходе. Это открывает путь к заметному снижению задержки при локальном и краевом инференсе.

MTP drafters — это лёгкие вспомогательные модели, которые прогнозируют несколько следующих токенов одновременно быстрее, чем большая модель обрабатывает один токен. Затем целевая модель (например, Gemma 4 31B) проверяет и отбирает предложенные токены параллельно. В реализации Google применили архитектурные и аппаратно‑специфичные оптимизации, включая совместное использование kV‑кеша основной модели, чтобы уменьшить накладные расходы при переключении между драфтером и основной моделью.

Проблема, которую решает MTP, — узкое место по памяти и пропускной способности при инференсе: процессор часто повторно перемещает миллиарды параметров из VRAM в вычислительные блоки для каждого токена, что повышает задержки и недозагружает вычислительные ресурсы, особенно на настольном и потребительском железе. MTP использует простаивающие вычислительные блоки для опережающего прогнозирования «простых» токенов, тем самым повышая общую пропускную способность и снижая простои.

В практических тестах Google указывает на ускорение отклика на ПК и потребительских GPU для моделей Gemma 26B MoE и 31B (dense), а также на возможность применения подхода в мобильных вариантах E2B и E4B. Сборки Gemma 4 с поддержкой MTP уже появились на платформах вроде Hugging Face, Kaggle и Ollama; Google опубликовал визуальные пояснения и технические детали в теме на X.com.

Реакция сообщества смешанная: пользователь Reddit FarrisAT назвал реализацию «впечатляющей», но предупредил, что локальные модели всё ещё склонны к ошибкам; Gohab2001 отметил практическую проблему локальных деплоев — необходимость загрузки двух моделей в память — и подчеркнул важность совместного kV‑кеша; на Hacker News пользователь zozbot234 указал, что MTP наиболее эффективно при ограниченном числе пользователей и избыточном compute, тогда как у крупных API‑провайдеров выигрыш может быть менее заметен.

Для инженеров и разработчиков MTP даёт реальный путь к снижению задержки при локальном и краевом инференсе без ухудшения качества, но требует учёта компромисса по памяти и интеграции аппаратных оптимизаций. Практические рекомендации — тестировать сочетания драфтера и целевой модели (MoE против dense), измерять потребление VRAM и латентность, проверять поддержку совместного kV‑кеша и оценивать преимущества по конкретным сценариям нагрузки и масштабу развёртывания.

Источники

InfoQ AI/ML · 5/25/2026

Ответы (0)

Пока нет ответов в этой теме.