Google Cloud introduce marco de fiabilidad a nivel de clúster para entrenamientos de modelos de billones de parámetros

News

5/12/2026, 8:04:52 AM

Google Cloud introduce marco de fiabilidad a nivel de clúster para entrenamientos de modelos de billones de parámetros

Google Cloud propone un marco operativo centrado en la salud agregada de superpods de TPU-en lugar de la fiabilidad por instancia — para medir y garantizar la disponibilidad colectiva necesaria en entrenamientos a escala de billones de parámetros.

Google Cloud ha publicado un marco de fiabilidad a nivel de clúster diseñado para sus unidades de procesamiento tensorial (TPU) que redefine cómo se mide la disponibilidad en entrenamientos de modelos de billones de parámetros. Los autores indican que el documento refleja el estándar operativo que la compañía emplea en producción y que además sirve como plano arquitectónico para la próxima generación (octava) de TPUs. El marco se aplica específicamente a superpods de TPU: conjuntos compuestos por miles de chips agrupados en cubos de 64 TPUs. Cada cubo incorpora enlaces Inter‑Chip Interconnect (ICI) de alta velocidad para lograr una conectividad densa dentro del bloque, y los cubos se interconectan mediante una Optical Circuit Switch (OCS) dinámica y reconfigurable que permite formar dominios de cómputo mayores y flexibles a nivel de superpod.

La motivación técnica que expone Google parte de un cambio en la unidad de cómputo. A medida que los modelos de frontera crecen hasta billones de parámetros, la ejecución exige que miles de componentes funcionen como una sola entidad coherente; la fiabilidad por instancia, paradigma dominante en la nube durante casi dos décadas y pensado para microservicios, resulta inadecuada para cargas de IA a escala industrial. Como consecuencia operativa, el marco prioriza la salud agregada del superpod: en lugar de tolerar la degradación dispersa mediante reemplazos de instancia, se busca mantener bloques contiguos grandes de cómputo totalmente operativos y conectados para sostener el progreso continuo de los entrenamientos. Google subraya que este criterio es crítico para los denominados "hero jobs", es decir, las ejecuciones masivas de entrenamiento empleadas en investigación de punta.

En el nivel de modelización, la propuesta adopta una perspectiva probabilística de la fiabilidad. Cuando el número de componentes crece masivamente, métricas por componente como la Mean Time Between Failures (MTBF) dejan de expresar adecuadamente el riesgo agregado; por ello el documento recurre a herramientas matemáticas — aludiendo de forma intuitiva a la desigualdad de Markov— y modela la disponibilidad usando una distribución binomial para calcular la probabilidad de que al menos k cubos estén completamente operativos dentro de un total de n cubos.

Como caso práctico y referencia de escala, Google emplea Ironwood, su TPU de séptima generación que está disponible comercialmente y es el silicio detrás de modelos como Gemini y Nano Banana. Un superpod Ironwood integra 9.216 chips organizados en 144 cubos de 64 chips; la topología combina la conectividad densa proporcionada por los ICI dentro de cada cubo con la OCS, que articula la interconexión entre cubos para formar dominios de cómputo ampliados.

Aplicando el modelo topológico y probabilístico al superpod Ironwood, Google calcula una disponibilidad topológica de 130 de 144 cubos disponibles durante el 95% del mes. Esa medición equivale a disponer de un bloque de cómputo de 8.320 chips que están completamente operativos y conectados vía ICI y OCS para impulsar entrenamientos a gran escala. La misma curva de disponibilidad permite a usuarios y equipos de investigación elegir el tamaño de slice acorde a su nivel de confianza estadística: por ejemplo, para un 99% de disponibilidad se identifica soporte para 125 cubos, mientras que para maximizar escala se puede contar con 130 cubos al nivel de confianza del 95%.

Finalmente, Google sitúa el documento en el contexto de su experiencia operativa, señalando que ha operado clústeres TPU a escala durante más de una década. El marco se presenta como referencia arquitectónica para futuras generaciones de TPU, integrando consideraciones de topología de red y modelización probabilística para atender las exigencias de cargas de IA de frontera.

Fuentes

Google Cloud Blog — AI & Machine Learning · 5/11/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás