Gemma 4 con predicción multi‑token promete hasta ~3× más velocidad de inferencia

News

5/25/2026, 9:57:27 AM

Gemma 4 con predicción multi‑token promete hasta ~3× más velocidad de inferencia

Gemma 4 puede trabajar junto a drafters de predicción multi‑token (MTP) que emplean decodificación especulativa para proponer y verificar varios tokens en una sola pasada; según Google, esa combinación puede acelerar la inferencia hasta en ~3× sin pérdida de calidad. Ese potencial de mejora reduce la latencia en la generación y apunta a facilitar ejecuciones más rápidas de modelos grandes en dispositivos locales, especialmente en PCs personales, GPUs de consumo y variantes móviles del modelo.

Técnicamente, los MTP drafters son modelos auxiliares ligeros que aprovechan cómputo ocioso para predecir varios tokens futuros en menos tiempo del que tarda el modelo objetivo en producir un único token. Tras esa fase de propuesta, la versión principal de Gemma 4 verifica todas las sugerencias en paralelo en una sola pasada. Google complementó este enfoque con mejoras arquitectónicas y optimizaciones específicas de hardware, y publicó una explicación visual del funcionamiento en un hilo en x.com.

La técnica busca mitigar el cuello de botella de memoria‑ancho de banda que genera transferencias repetidas de parámetros desde la VRAM a las unidades de cómputo, una fuente importante de latencia y de uso ineficiente de recursos en hardware de consumo. Al reducir esas transferencias y aumentar la paralelización de la generación, la compañía indica que la respuesta mejora en entornos con recursos limitados, como equipos personales y GPUs de consumo, así como en variantes móviles del modelo.

Fuentes

InfoQ AI/ML · 5/25/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás