Google revela detalhes detalhados sobre o Superpod TPU “Ironwood” de próxima geração: com 9216 chips, 192 GB de memória HBM e 4614 TFLOPs de poder de computação por chip

Google revela detalhes detalhados sobre o Superpod TPU “Ironwood” de próxima geração: com 9216 chips, 192 GB de memória HBM e 4614 TFLOPs de poder de computação por chip

Durante o Hot Chips 2025, o Google apresentou sua revolucionária plataforma TPU de última geração, conhecida como Ironwood, enfatizando sua ampla escalabilidade no nível de rack.

Explorando o Ironwood do Google: um avanço na tecnologia TPU

A plataforma Ironwood, que representa a 7ª geração de TPUs, foi revelada inicialmente em abril de 2023. O Google anunciou que essa arquitetura promete um aumento extraordinário de 24 vezes no desempenho em comparação com os supercomputadores líderes atuais. Em sua apresentação Hot Chips 2025, o Google apresentou uma visão geral da evolução e dos avanços de suas TPUs ao longo dos anos.

Comparação de sistemas TPU: visão geral do desempenho e capacidade do TPU v4, v5p e Ironwood para 2022-2025.

Em 2022, o Google lançou o TPU v4, que integrava 4.096 chips em um único pod, acompanhado por 32 GB de memória de alta largura de banda (HBM) de 1, 2 TB/s e oferecendo 275 TFLOPs de poder computacional por chip. No ano seguinte, o TPU v5p foi lançado, com 8.960 chips, 95 GB de memória HBM de 2, 8 TB/s e impressionantes 459 TFLOPs por chip. Este ano, o Ironwood TPU Superpod deve elevar ainda mais essas especificações, fornecendo 9.216 chips por pod, equipado com 192 GB de memória HBM de 7, 4 TB/s e impressionantes 4.614 TFLOPs de desempenho máximo por chip, marcando uma melhoria de 16 vezes em relação ao TPU v4.

Diagrama da arquitetura de rede do Ironwood Superpod e do Max-scale Cluster.

O Google se aprofundou na arquitetura do Ironwood Superpod e do cluster Max-scale. No centro dessa arquitetura está o sistema em chip (SoC) Ironwood, com quatro chips integrados em cada placa-mãe de PCBA Ironwood, que, juntos, se encaixam em um rack de TPU Ironwood. Cada rack comporta 16 PCBAs Ironwood, o que equivale a uma formidável configuração de 64 chips.

Diagrama de subsistemas de rack do data center com componentes rotulados como bandeja, cabos e unidades de energia.

A solução de rede para interconectividade utiliza a tecnologia InterChip Interconnect (ICI) do Google, projetada para redes em escala. Essa configuração permite conectar até 43 clusters (com um bloco contendo 64 chips cada) entre Superpods, facilitada por uma capacidade de rede substancial de 1, 8 petabytes. A troca interna de dados utiliza diversas placas de interface de rede (NICs).

O superpod do Google consiste em vários racks, especificamente o Ironwood Superpod, com 144 racks. Além disso, a arquitetura inclui um chassi de switch óptico para aprimorar a conectividade de escalonamento entre blocos, complementado por um rack de unidade de distribuição de refrigerante (CBU).

Diagrama do conjunto de rack Superpod com Ironwood SoC, TPU, OCS e CDU para rede e resfriamento.

O design dos racks utiliza um layout 3D Torus, mantido consistentemente nas últimas três gerações de TPUs. Cada componente estrutural compreende uma rede 3D 4x4x4, totalizando 64 chips ou nós agrupados em um único rack.

Diagrama de blocos, cabos e conexões detalhados do rack TPU do Google com ICI 4x4x4.

A estratégia de interconectividade do Google emprega um modelo híbrido que combina placas de circuito impresso (PCB), links passivos de cobre e conexões de fibra óptica para garantir flexibilidade na configuração do sistema.

Rack com feixes de fibras ICI e diagrama para layout de sistema de fibra pré-implantado
Diagrama de infraestrutura e layout de resfriamento de data center para eficiência ideal
Diagrama ilustrando o gerenciamento de energia do TPU SoC e a limitação de rack em data centers.
Gráfico mostrando os modos de potência do rack: TDP de base, TDP alto e detalhes de ativação do período de limitação de 120s.
Desafios e oportunidades em dimensionamento e infraestrutura de rack de ML.

2 de 9

A parte superior de cada rack é equipada com uma bandeja coletora para monitorar possíveis vazamentos de líquido do coletor. Abaixo dela, encontra-se o sistema de fornecimento de energia, que conta com dois domínios de potência capazes de converter 416 volts CA em CC por meio de retificação. O projeto da Ironwood implementa um sistema de resfriamento a líquido, permitindo que um único rack suporte mais de 100 kW de potência em plena carga. Isso conclui os insights compartilhados sobre o TPU da Ironwood.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *