Disputa acirrada entre chips de IA: a NVIDIA enfrenta forte concorrência das TPUs do Google, e não apenas da AMD ou da Intel.

Disputa acirrada entre chips de IA: a NVIDIA enfrenta forte concorrência das TPUs do Google, e não apenas da AMD ou da Intel.

No setor de inteligência artificial em rápida evolução, a NVIDIA enfrenta desafios sem precedentes, não principalmente da AMD ou da Intel, mas do Google — um concorrente emergente que está reduzindo significativamente a diferença. O CEO da NVIDIA, Jensen Huang, está bem ciente desse cenário competitivo.

À primeira vista, pode parecer surpreendente que o Google esteja na vanguarda da corrida por hardware de IA, mas a gigante da tecnologia, na verdade, preparou o terreno ao lançar seu primeiro chip de IA personalizado, a TPU (Unidade de Processamento Tensorial), em 2016, muito antes de seus concorrentes. Recentemente, o Google revelou seu mais novo avanço, as TPUs Ironwood de ‘7ª geração’, um lançamento que gerou grande entusiasmo e estabeleceu o contexto para um confronto competitivo entre a NVIDIA e o Google. Neste artigo, analisamos os aspectos críticos que ilustram por que essa disputa é crucial, com foco especial nos avanços trazidos pelas TPUs Ironwood do Google.

TPUs Ironwood do Google: 192 GB de HBM e grandes melhorias de desempenho.

As TPUs Ironwood do Google estão se preparando para serem implementadas em diversas cargas de trabalho, com previsão de disponibilidade em breve. Comercializado como um chip “focado em inferência”, o Google afirma que o Ironwood anuncia uma nova era no desempenho de inferência, melhorando a eficiência na computação de propósito geral. A TPU v7 (Ironwood) foi estrategicamente projetada para se destacar na transição do treinamento de modelos para a inferência, que está prestes a dominar o cenário tecnológico atual. Aqui estão algumas especificações notáveis:

  • Melhoria de desempenho máximo de 10 vezes em comparação com o TPU v5p.
  • Desempenho 4 vezes melhor por chip, tanto para treinamento quanto para inferência, em comparação com o TPU v6e (Trillium).
  • O silício personalizado mais potente e eficiente em termos de energia desenvolvido pelo Google até hoje.

Analisando as especificações mais detalhadamente, o chip Ironwood possui impressionantes 192 GB de memória HBM de 7, 4 TB/s e pode atingir um desempenho máximo de 4.614 TFLOPs por chip — um aumento de quase 16 vezes em relação ao TPU v4. Além disso, com a introdução do Ironwood TPU Superpod, composto por 9.216 chips, o Google é capaz de fornecer incríveis 42, 5 exaFLOPS para cargas de trabalho computacionais FP8 agregadas. Essa integração destaca as soluções inovadoras de interconexão do Google, que superaram o NVLink da NVIDIA em escalabilidade.

Uma sala ampla repleta de fileiras de racks de servidores, interligados por inúmeros cabos coloridos.
SuperPod Ironwood do Google

Com foco na interconectividade, o Google emprega o InterChip Interconnect (ICI), uma rede robusta projetada para escalabilidade. Essa tecnologia permite a conexão de 43 blocos (cada um contendo 64 chips) de Superpods em uma rede de 1, 8 petabytes. Ao utilizar NICs para comunicações internas e um layout 3D Torus para as TPUs, o Google otimiza a interconectividade, aprimorando efetivamente a escalabilidade e a densidade de chips — uma área em que supera as ofertas da NVIDIA.

Especificação Valor
Computação máxima por chip (FP8) ~ 4.614 TFLOPS
Capacidade HBM por chip 192 GB HBM3e
Largura de banda de memória por chip ~ 7, 2 TB/s
Tamanho máximo da cápsula (número de chips) 9.216 fichas
Computação máxima por pod ~ 42, 5 ExaFLOPS
Memória do sistema por pod (HBM) ~ 1, 77 PB
Largura de banda de interconexão entre chips (ICI) ~ 1, 2 Tb/s por link
Melhoria de desempenho ~ 16 vezes maior que o TPU v4

As ambições da Google no mercado de ASICs: uma ameaça real à supremacia da NVIDIA em IA?

Ao analisarmos a importância das TPUs Ironwood na era atual da inferência, é crucial reconhecer a crescente relevância das capacidades de inferência. Tradicionalmente, o treinamento de modelos dominava o cenário da IA, com as soluções de computação da NVIDIA sendo amplamente utilizadas devido ao seu desempenho superior em cenários de treinamento. No entanto, à medida que os modelos convencionais se tornam predominantes, as tarefas de inferência aumentaram drasticamente, muitas vezes superando as necessidades de treinamento.

O desempenho de inferência é determinado por mais do que apenas TFLOPS; fatores como latência, taxa de transferência, eficiência e custo por consulta estão se tornando cada vez mais vitais. Ao examinar as ofertas Ironwood do Google, fica claro por que elas podem superar a NVIDIA nesse quesito. Por exemplo, o Ironwood apresenta uma quantidade substancial de memória integrada, semelhante às GPUs Blackwell B200 AI da NVIDIA. Ainda assim, a capacidade de clusterização do SuperPod, com 9.216 chips, expande significativamente a capacidade total de memória.

Uma imagem ampliada da placa-mãe de um servidor, mostrando blocos de resfriamento metálicos, dissipadores de calor e tubos conectados para refrigeração líquida.
Uma placa Ironwood exibindo três TPUs Ironwood conectados a um sistema de refrigeração líquida.

Uma maior capacidade de memória é fundamental em cenários de inferência, pois minimiza os atrasos na comunicação entre chips e aumenta o desempenho de latência em modelos grandes, reforçando o atrativo do Ironwood. O Google projetou o Ironwood meticulosamente para um ambiente de baixa latência, além de aprimorar a eficiência energética — um aspecto crucial para o seu sucesso previsto.

A inferência em hiperescala exige milhares de chips capazes de processar continuamente solicitações de consulta com eficiência, tornando os custos de implantação e operação uma prioridade em relação ao desempenho bruto para provedores de serviços em nuvem (CSPs).Para isso, o Google alcançou uma melhoria de duas vezes na eficiência energética com o Ironwood, tornando suas TPUs mais economicamente viáveis ​​para aplicações de inferência em larga escala.

A GPU NVIDIA Rubin CPX para contexto massivo é apresentada com recursos como 128 GB de memória GDDR7 e estará disponível no final de 2026.
Imagem: NVIDIA Corporation

O paradigma da competição em IA está passando de uma simples busca pelo maior número de FLOPS para uma batalha mais complexa que engloba recursos de processamento de consultas, redução de latência, custos operacionais e eficiência energética. Essa evolução representa uma nova oportunidade para o Google se consolidar desde o início, capitalizando sobre as potenciais fragilidades do domínio consolidado da NVIDIA no setor de IA. Notavelmente, o Ironwood estará disponível exclusivamente no Google Cloud, o que pode facilitar a dependência do ecossistema e potencialmente colocar em risco a posição estabelecida da NVIDIA. Os avanços iterativos das TPUs do Google reforçam sua natureza competitiva, sinalizando uma mudança que deve ser considerada no planejamento estratégico da NVIDIA.

Apesar disso, a NVIDIA não está permanecendo passiva diante desse novo desafio; em resposta, está lançando o Rubin CPX, visando conquistar um nicho significativo com soluções otimizadas para racks. Contudo, fica cada vez mais claro que o Google está se consolidando como um rival formidável para a NVIDIA, enquanto a Intel e a AMD atualmente ficam para trás em influência e inovação.

Em um comentário notável, Jensen Huang refletiu sobre as capacidades das TPUs do Google durante uma entrevista anterior, reconhecendo a complexidade e a competitividade de suas ofertas:

Nesse sentido… um dos maiores debates… é a questão das GPUs versus ASICs, as TPUs do Google, o Trainium da Amazon. O Google… Eles começaram com o TPU1 antes de tudo começar… O desafio para quem está desenvolvendo ASICs.

A TPU está na TPU 7. Sim. Certo. E é um desafio para eles também. Certo. E o trabalho que eles fazem é incrivelmente difícil.

Fonte e imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *