
Zyphra presentó ZAYA1‑8B‑Diffusion‑Preview, una vista previa que convierte su modelo autoregresivo MoE ZAYA1‑8B a un esquema de difusión discreta y que, según la nota oficial, logra aceleraciones de inferencia de hasta 7,7× sin introducir una pérdida sistemática en las métricas de evaluación. Esto importa porque la técnica promete reducir la dependencia del ancho de banda de memoria en la inferencia, con potencial para bajar latencias y costes sin rehacer todo el preentrenamiento.
la propuesta afecta sobre todo a despliegues donde la latencia y el coste por consulta importan más que volver a entrenar desde cero. Técnicamente, el equipo aborda el cuello de botella del KV‑cache: el decodificado autoregresivo requiere recargar representaciones previas token a token, lo que hace que la inferencia dependa del ancho de banda de memoria. El enfoque por difusión genera bloques de N tokens de forma simultánea; en esta vista previa, cada elemento del bloque sufre una transformación de máscara a token en un solo paso, lo que reduce las transferencias repetidas desde memoria durante el decodificado.
Para la conversión, Zyphra partió del checkpoint ZAYA1‑8B‑base y aplicó el procedimiento TiDAR, añadiendo trabajo de difusión equivalente a aproximadamente 600 000 millones de tokens adicionales. El resultado cambia el balance entre cómputo y memoria: el nuevo flujo desplaza carga hacia cálculo en lugar de ancho de banda de memoria, y reportes sobre la prueba de inferencia señalan beneficios notables especialmente en GPUs AMD-siendo más ventajoso en hardware donde el cómputo escala más rápido que el ancho de banda.
Limitaciones: se trata de una vista previa y de trabajo inicial del equipo, por lo que los resultados deben considerarse preliminares. Zyphra propone la conversión como alternativa a entrenar un modelo de difusión desde cero, ya que el principal beneficio declarado aparece en tiempo de inferencia y permite aprovechar un modelo autoregresivo ya preentrenado sin rehacer completamente la base de datos de entrenamiento.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.