Google revela detalles detallados sobre el superpod de TPU «Ironwood» de próxima generación: con 9216 chips, 192 GB de memoria HBM y 4614 TFLOP de potencia de cómputo por chip.

Google revela detalles detallados sobre el superpod de TPU «Ironwood» de próxima generación: con 9216 chips, 192 GB de memoria HBM y 4614 TFLOP de potencia de cómputo por chip.

Durante Hot Chips 2025, Google presentó su revolucionaria plataforma TPU de próxima generación, conocida como Ironwood, enfatizando su amplia escalabilidad a nivel de rack.

Explorando Ironwood de Google: un avance en la tecnología TPU

La plataforma Ironwood, que representa la séptima generación de TPU, se presentó inicialmente en abril de 2023. Google anunció que esta arquitectura promete un extraordinario aumento de 24 veces en el rendimiento en comparación con las supercomputadoras líderes actuales. En su presentación Hot Chips 2025, Google ofreció un resumen de la evolución y los avances de sus TPU a lo largo de los años.

Comparación de sistemas TPU: descripción general del rendimiento y la capacidad de TPU v4, v5p e Ironwood para 2022-2025.

En 2022, Google lanzó el TPU v4, que integraba 4096 chips en un solo pod, junto con 32 GB de memoria de alto ancho de banda (HBM) de 1, 2 TB/s y ofrecía 275 TFLOPs de potencia computacional por chip. Al año siguiente, se presentó el TPU v5p, con 8960 chips, 95 GB de memoria HBM de 2, 8 TB/s y la impresionante cifra de 459 TFLOPs por chip. Este año, el Ironwood TPU Superpod está listo para elevar aún más estas especificaciones, ofreciendo 9216 chips por pod, equipado con 192 GB de memoria HBM de 7, 4 TB/s y la asombrosa cifra de 4614 TFLOPs de rendimiento máximo por chip, lo que supone una mejora de 16 veces con respecto al TPU v4.

Diagrama de la arquitectura de red de Ironwood Superpod y Max-scale Cluster.

Google profundizó en la arquitectura del Ironwood Superpod y el clúster Max-scale. En el núcleo de esta arquitectura se encuentra el sistema en chip (SoC) Ironwood, con cuatro chips integrados en cada placa base Ironwood PCBA, que encajan en un rack Ironwood TPU. Cada rack alberga 16 PCBA Ironwood, lo que equivale a una formidable configuración de 64 chips.

Diagrama de subsistemas de rack del centro de datos con componentes etiquetados como bandejas, cables y unidades de alimentación.

La solución de red para la interconectividad utiliza la tecnología InterChip Interconnect (ICI) de Google, diseñada para redes escalables. Esta configuración puede conectar hasta 43 clústeres (con un bloque de 64 chips cada uno) a través de Superpods, gracias a una considerable capacidad de red de 1, 8 petabytes. El intercambio interno de datos utiliza varias tarjetas de interfaz de red (NIC).

El superpod de Google consta de varios racks, en concreto el Ironwood Superpod, con 144 racks. Además, la arquitectura incluye un chasis de conmutador óptico para mejorar la conectividad de escalado entre bloques, complementado por un rack de unidad de distribución de refrigerante (CBU).

Diagrama de conjunto de rack Superpod con Ironwood SoC, TPU, OCS y CDU para red y refrigeración.

El diseño de los racks emplea una disposición toroidal 3D, que se ha mantenido constante en las últimas tres generaciones de TPU. Cada componente estructural comprende una red 3D 4x4x4, con un total de 64 chips o nodos empaquetados en un solo rack.

Diagrama de bloques, cables y conexiones detallados del rack Google TPU con ICI 4x4x4.

La estrategia de interconectividad de Google emplea un modelo híbrido que combina láminas de circuitos impresos (PCB), enlaces pasivos de cobre y conexiones de fibra óptica para garantizar flexibilidad en la configuración del sistema.

Rack con haces de fibras ICI y diagrama para el diseño del sistema de fibra previamente implementado
Diagrama de infraestructura y diseño de refrigeración del centro de datos para una eficiencia óptima
Diagrama que ilustra la gestión de energía del SoC de TPU y la limitación del rack en centros de datos.
Gráfico que muestra los modos de potencia del rack: TDP base, TDP alto y detalles de activación del período de limitación de 120 s.
Desafíos y oportunidades en la escalabilidad y la infraestructura del rack de ML.

2 de 9

La sección superior de cada rack cuenta con una bandeja de goteo para monitorear posibles fugas de líquido del colector. Debajo de esta se encuentra el sistema de suministro de energía, que cuenta con dos dominios de potencia capaces de convertir 416 voltios de CA en CC mediante rectificación. El diseño de Ironwood implementa un sistema de refrigeración líquida, lo que permite que un solo rack admita más de 100 kW de potencia a plena carga. Con esto concluye la información compartida sobre la TPU de Ironwood.

Fuente e imágenes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *