
El 6 de mayo de 2026 Google lanzó dos nuevos chips, TPU 8t y TPU 8i, diseñados para acelerar el entrenamiento de modelos de vanguardia y los flujos de agentes con razonamiento multi‑paso.
El 6 de mayo de 2026 Google presentó una nueva generación de Tensor Processing Units compuesta por dos chips especializados: TPU 8t, orientado al entrenamiento masivo de modelos, y TPU 8i, enfocado en inferencia de baja latencia y flujos de agentes que requieren razonamiento continuo y bucles de acción distribuidos entre modelos.
Según la compañía, TPU 8t está pensado para cargas de entrenamiento de vanguardia: ofrece casi 3× más rendimiento de cómputo respecto a la generación anterior, mayor densidad de cálculo y mejoras en capacidad y ancho de banda de memoria. En configuración de superpod, un despliegue 8t escala hasta 9,600 chips con 2 PB de memoria compartida de alta velocidad (HBM) y proporciona 121 ExaFlops de cómputo.
En materia de escalado y fiabilidad, Google afirma que el diseño de 8t duplica el ancho de banda entre chips frente a la generación previa y permite escalar de forma casi lineal hasta un millón de chips en un clúster local. La compañía también menciona almacenamiento hasta 10× más rápido y mejoras en disponibilidad y servicio destinadas a reducir paradas por fallos, bloqueos de red o reinicios de checkpoints.
TPU 8i está optimizada para inferencia continua y eficiencia bajo carga sostenida: aumenta el ancho de banda de memoria y admite hasta 288 GB de memoria por unidad, y, según Google, mejora el rendimiento por dólar en un 80% en cargas de inferencia. Para modelos Mixture of Experts (MoE) la plataforma dobla la banda ICI a 19.2 Tb/s y estrena la arquitectura Boardfly, que reduce el diámetro máximo de la red en más del 50%.
En foros técnicos varios participantes destacaron la ventaja competitiva de la integración vertical — diseño conjunto de silicio, red y software — como factor diferenciador frente a proveedores de hardware externos. Al mismo tiempo, varios actores recuerdan que, para proyectos a gran escala, la alternativa práctica sigue siendo adquirir GPU de fabricantes como NVIDIA o alquilar capacidad en la nube.
La combinación de un gran pool de memoria compartida, mayor ancho de banda y menor latencia promete acelerar ciclos de experimentación y despliegue para equipos que entrenan modelos de frontera o desarrollan agentes. No obstante, las cifras provienen de declaraciones oficiales de Google, lo que plantea consideraciones sobre coste operativo, dependencia de la plataforma del proveedor y la necesidad de validación independiente en escenarios reales.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.