Google представила технологию многотокового предсказания (multi‑token prediction, MTP) для открытой линейки Gemma 4, которая, по словам компании, ускоряет генерацию текста до трёх раз без потери качества.
Google объявила о внедрении многотокового предсказания (multi‑token prediction, MTP) в семейство открытых моделей Gemma 4 — вспомогательной технологии, призванной сократить время генерации текста. MTP использует небольшую «драфтер‑модель», которая работает параллельно с основной сетью, формируя несколько кандидатов токенов в те моменты, когда большая модель ожидает данных или занята загрузкой параметров. Традиционные по‑токенные генераторы каждый шаг подгружают миллиарды параметров и теряют процессорное время на ожидание. В MTP малая модель «заполняет» эти паузы, генерируя последовательности токенов, а основная модель затем проверяет все предложения за один проход. По заявлению Google, такой подход даёт ускорение генерации до трёх раз при сохранении качества вывода.
MTP позиционируется как вспомогательная оптимизация для Gemma 4 и не меняет архитектуру основной модели: ключевой эффект достигается за счёт параллельной работы двух уровней модели и слияния результатов проверки. Компания подчёркивает, что ускорение достигается без ухудшения качества, поскольку итоговые токены проходят проверку крупной модели прежде, чем включаются в окончательный вывод.
Источники
Ответы (0)
Пока нет ответов в этой теме.