O modelo Codex da OpenAI utiliza a infraestrutura Cerebras, apresentando uma alternativa poderosa à NVIDIA para inferência de IA.

A OpenAI deu um salto significativo em sua jornada tecnológica ao integrar os chips de IA avançados da Cerebras em suas operações. Essa colaboração marca um momento crucial, destacando a mudança mais ampla no cenário da computação, à medida que a OpenAI revela que seu modelo mais recente, o Codex, agora conta com o suporte da Cerebras, além da dependência tradicional da NVIDIA.

A OpenAI alcança uma produção notável de 1.000 TPS com a tecnologia de alta velocidade da Cerebras.

Enquanto a OpenAI consolidava sua relação financeira com a NVIDIA, é importante destacar que sua parceria anterior com a Cerebras se tornou um divisor de águas no domínio da computação. No recente lançamento do GPT-5.3-Codex-Spark, a OpenAI ressaltou as vantagens do hardware da Cerebras, particularmente seu desempenho excepcional de “baixa latência” em tarefas de inferência. Essa colaboração representa um desafio formidável ao domínio da NVIDIA, especialmente na área de inferência de modelos.

A variante Codex-Spark se distingue dos modelos Codex tradicionais por sua capacidade de aprimorar a eficiência operacional. A OpenAI afirma que este modelo foi projetado especificamente para oferecer resposta imediata, resultando em melhorias significativas na latência. Ao otimizar os fluxos de processamento e utilizar com eficácia o hardware de ponta da Cerebras, a empresa alega uma redução de 50% no tempo até o primeiro token (TTF), o que demonstra suas capacidades. Notavelmente, o Codex-Spark opera no Cerebras Wafer Scale Engine 3, que possui especificações impressionantes, conforme destacado abaixo:

Especificação WSE-3
Nó de processo TSMC 5nm
Transistores ~4 trilhões
Núcleos de Computação 900.000 núcleos otimizados para IA
SRAM integrada no chip 44 GB
Largura de banda da memória (no chip) 21 PB/s
Tamanho do wafer Chip em escala de wafer de 300 mm completo
Arquitetura Central núcleos de processamento programáveis ​​otimizados para IA

A escolha da OpenAI pelo Cerebras se justifica principalmente pela significativa largura de banda de memória oferecida pelo WSE-3, essencial para tarefas que exigem muita memória, como programação. Esse suporte de alta capacidade permite que o Codex-Spark alcance uma impressionante taxa de transferência de 1.000 transações por segundo (TPS), tornando-o tão ágil quanto um programador humano. Curiosamente, treinar esse modelo na infraestrutura da NVIDIA seria economicamente ineficiente devido ao seu foco em processamento em lote em detrimento do desempenho de baixa latência; portanto, o Cerebras se mostra uma escolha lógica.

Comparação entre o Cerebras Wafer Scale Engine 3 e o NVIDIA H100
Créditos da imagem: Cerebras

Apesar das capacidades promissoras da Cerebras em cenários de inferência, a NVIDIA continua a desempenhar um papel dominante no mercado. Seus anúncios recentes indicaram uma redução de até 10 vezes no custo dos tokens com a arquitetura Blackwell, consolidando ainda mais sua posição de destaque. Sachin Katti, da OpenAI, observou as “capacidades complementares” oferecidas pela Cerebras, mas parece que a lealdade do laboratório de IA na batalha da computação permanece principalmente com a NVIDIA. O surgimento do Codex-Spark, no entanto, destaca um gargalo crítico na latência, para o qual a estrutura tecnológica atual da NVIDIA pode não estar na posição ideal para competir.

Olhando para o futuro, o cenário do mercado de inferência parece cada vez mais competitivo, com a NVIDIA enfrentando concorrentes formidáveis ​​como a Cerebras, além de inovações de outros fabricantes de ASICs e rivais como a AMD. Resta saber como essa dinâmica influenciará a estratégia e o posicionamento de mercado da NVIDIA nos próximos anos.

Fonte e imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *