O Google entra na era da IA ativa com seu hipercomputador de IA avançado que integra TPUs de 8ª geração, NVIDIA Rubin e CPUs Axion.

O Google apresentou oficialmente seu inovador hipercomputador de IA no evento Cloud Next 26, revolucionando o cenário da infraestrutura de inteligência artificial (IA) ao integrar chips da série TPUv8, GPUs NVIDIA Rubin e CPUs Axion. Este anúncio marca um marco significativo na definição do futuro da IA Agética.

Google Cloud Next 26: Hipercomputador de IA revolucionando a IA ética com tecnologia avançada

A era convencional dos supercomputadores está dando lugar a um novo paradigma dominado pelos hipercomputadores, que combinam diversas opções de computação para criar arquiteturas de IA adaptáveis e de alto desempenho. O Hipercomputador de IA do Google representa essa evolução, oferecendo aos clientes uma flexibilidade sem precedentes para atender às suas necessidades computacionais.

Um diagrama intitulado 'Hipercomputador de IA' apresenta três seções: 'Consumo Flexível' com 'Orquestração', 'Gerenciamento de Cluster' e 'Modelos de Consumo'; 'Software Aberto' com 'Frameworks' e 'Mecanismos de Inferência'; e 'Hardware Dedicado a Aplicações Específicas' com 'Computação', 'Armazenamento' e 'Rede'.

Para concretizar o potencial do Hipercomputador de IA, o Google desenvolveu uma arquitetura especificamente otimizada para desempenho. Em sua essência, o Hipercomputador de IA apresenta a mais recente série TPUv8, CPUs inovadoras Axion Cloud e GPUs NVIDIA Rubin avançadas. Isso inclui o lançamento da TPU de 8ª geração do Google, disponível em dois modelos distintos: TPU 8t e TPU 8i.

Modelo TPU 8t otimizado para treinamento aprimorado

O TPU 8t foi projetado como um processador de treinamento formidável, reduzindo drasticamente o tempo necessário para implantar modelos de ponta de meses para apenas semanas. Ele oferece desempenho computacional de alto nível, recursos aprimorados de memória compartilhada e largura de banda interchip impressionante — tudo isso em um design com baixo consumo de energia. Os principais recursos do TPU 8t incluem:

Capacidade de escalonamento massivo: Um único superpod TPU 8t pode escalar até 9.600 chips, acompanhado por dois petabytes de memória compartilhada de alta largura de banda — oferecendo o dobro da largura de banda entre chips em comparação com seu antecessor. Essa configuração fornece até 121 ExaFLOPS de poder computacional, permitindo que modelos complexos utilizem um único e extenso pool de memória.
Maximização da utilização: Com uma melhoria de 10 vezes na velocidade de acesso ao armazenamento, combinada com o TPUDirect para recuperação de dados otimizada, o TPU 8t aprimora a utilização do sistema de forma geral.
Escalabilidade quase linear: A integração da nova Virgo Network e de softwares avançados como o JAX permite que o TPU 8t facilite a escalabilidade quase linear para clusters lógicos contendo até um milhão de chips.

TPU 8i: Um novo padrão de referência em inferência

O TPU 8i foi projetado especificamente para tarefas de inferência, ostentando impressionantes 288 GB de memória HBM, juntamente com significativos 384 MB de SRAM integrada — triplicando a capacidade encontrada em seus antecessores. Essa arquitetura permite a operação contínua de modelos inteiramente no chip. Os principais atributos do TPU 8i incluem:

Eficiência através do Axion: Este modelo duplica o número de hosts de CPU físicos por servidor e utiliza CPUs Axion personalizadas baseadas em Arm com arquitetura de memória não uniforme (NUMA) para um desempenho aprimorado.
Otimizado para modelos de Mistura de Especialistas (MoE): O TPU 8i apresenta uma largura de banda de interconexão (ICI) aumentada para 19, 2 Tb/s e uma arquitetura Boardfly que reduz significativamente o diâmetro da rede, garantindo funcionalidade integrada de baixa latência.
Latência reduzida: Graças ao novo mecanismo de aceleração coletiva (CAE) integrado, o TPU 8i reduz a latência no chip, aumentando significativamente o desempenho.

Dois chips Google Cloud TPU v8i são exibidos em foco, com um fundo desfocado que apresenta várias placas de circuito.

Tabela de comparação de recursos

Recurso	TPU 8t	TPU 8i
Carga de trabalho principal	Pré-treinamento em larga escala	Amostragem, serviço e raciocínio
Topologia de rede	toroide 3D	Boardfly
Características especializadas do chip	SparseCore (Embeddings) e mecanismo de decodificação LLM	CAE (Motor de Aceleração Coletiva)
Capacidade HBM	216 GB	288 GB
SRAM integrada (Vmem)	128 MB	384 MB
Pico de PFLOPs FP4	12.6	10.1
Largura de banda HBM	6, 528 GB/s	8.601 GB/s (aproximadamente 1, 3x a velocidade do TPU 8T)
Conector da CPU	Braço Axion	Braço Axion

Destaques do Hipercomputador de IA

Aqui estão alguns dos principais recursos do hipercomputador de IA do Google que demonstram suas capacidades inovadoras:

O TPU 8t foi otimizado para treinamento, utilizando a interconexão entre chips (ICI) para escalar até 9.600 TPUs e 2 PB de memória compartilhada em um único superpod, atingindo três vezes o poder de processamento de seu antecessor com maior eficiência energética.
O TPU 8i utiliza a nova topologia Boardfly para conexão direta de 1.152 TPUs, apresentando três vezes mais SRAM que os modelos anteriores para suportar maior armazenamento on-chip e implementando um CAE especializado para melhorias de desempenho.
As GPUs da NVIDIA desempenham um papel fundamental nos aceleradores de IA oferecidos, sendo o Google um dos primeiros a introduzir a NVIDIA Vera Rubin NVL72, além dos modelos existentes baseados em Hoover e Blackwell.
O Google Cloud Axion apresenta instâncias N4A Axion — lançadas em janeiro — que oferecem uma melhoria de 100% na relação custo-benefício em comparação com instâncias x86 equivalentes.
A computação otimizada para rede está se expandindo com as novas séries de máquinas C4N e M4N, projetadas para aprimorar aplicativos que exigem muita rede e oferecendo quase quatro vezes mais largura de banda por vCPU do que as instâncias padrão.
Entre as inovações significativas em armazenamento, destacam-se os avanços no Managed Lustre, capaz de atingir uma taxa de transferência de 10 TB por segundo para treinamento acelerado, bem como o Rapid Storage, que apresentou picos de desempenho de 6 TB/s para 15 TB/s, aprimorando as cargas de trabalho de treinamento e inferência.
As melhorias na rede envolvem a Virgo Network, uma arquitetura otimizada projetada para conectar sistemas NVIDIA Vera Rubin NVL72 ou superpods TPU 8t para formar supercomputadores de grande porte que aprimoram o treinamento distribuído de modelos sofisticados.

Entre os clientes de destaque do hipercomputador de IA do Google, encontram-se grandes empresas como o Departamento de Energia dos EUA, a Boston Dynamics, a Citadel Securities, a Thinking Machine Labs e a Axia Energy.

Fonte e imagens