Il modello OpenAI Codex utilizza l’infrastruttura Cerebras, presentando una potente alternativa a NVIDIA per l’inferenza dell’IA

OpenAI ha compiuto un significativo passo avanti nel suo percorso tecnologico integrando i chip di intelligenza artificiale avanzata di Cerebras nelle sue operazioni. Questa collaborazione segna un momento cruciale, evidenziando il più ampio cambiamento nel panorama informatico, con OpenAI che annuncia che il suo ultimo modello, il Codex, è ora supportato da Cerebras, in aggiunta alla tradizionale dipendenza da NVIDIA.

OpenAI raggiunge un notevole output di 1.000 TPS con la tecnologia ad alta velocità di Cerebras

Mentre OpenAI navigava nel suo rapporto finanziario con NVIDIA, è degno di nota che la sua precedente partnership con Cerebras si sia rivelata un punto di svolta nel dominio del calcolo. Nella recente pubblicazione di GPT-5.3-Codex-Spark, OpenAI ha evidenziato i vantaggi dell’hardware di Cerebras, in particolare le sue eccezionali prestazioni a “bassa latenza” nelle attività di inferenza. Questa collaborazione rappresenta una sfida formidabile per il predominio di NVIDIA, in particolare nell’area dell’inferenza di modelli.

La variante Codex-Spark si distingue dai modelli Codex tradizionali per la sua capacità di migliorare l’efficienza operativa. OpenAI afferma che questo modello è specificamente progettato per una reattività immediata, con conseguenti notevoli miglioramenti nella latenza. Ottimizzando le pipeline di elaborazione e utilizzando efficacemente l’hardware all’avanguardia di Cerebras, l’azienda afferma di aver ridotto il time-to-first-token di un sorprendente 50%, a dimostrazione delle sue capacità. In particolare, Codex-Spark opera sul Cerebras Wafer Scale Engine 3, vantando specifiche impressionanti, come evidenziato di seguito:

Specifica	WSE-3
Nodo di processo	TSMC 5nm
Transistor	~4 trilioni
Core di elaborazione	900.000 core ottimizzati per l’intelligenza artificiale
SRAM su chip	44 GB
Larghezza di banda della memoria (su chip)	21 PB/s
Dimensione del wafer	Chip completo da 300 mm su scala wafer
Architettura di base	Core di elaborazione programmabili ottimizzati per l’intelligenza artificiale

La logica alla base della scelta di Cerebras da parte di OpenAI può essere attribuita principalmente alla significativa larghezza di banda di memoria offerta da WSE-3, essenziale per attività che richiedono molta memoria come la codifica. Questo supporto ad alta capacità consente a Codex-Spark di raggiungere un throughput impressionante di 1.000 transazioni al secondo (TPS), rendendolo reattivo quanto un “programmatore umano in coppia”.È interessante notare che addestrare questo modello sull’infrastruttura di NVIDIA sarebbe economicamente inefficiente a causa della sua attenzione all’elaborazione batch rispetto alle prestazioni a bassa latenza, quindi Cerebras si rivela una scelta logica.

Confronto tra Cerebras Wafer Scale Engine 3 e NVIDIA H100 — Crediti immagine: Cerebras

Nonostante le promettenti capacità di Cerebras negli scenari di inferenza, NVIDIA continua a svolgere un ruolo dominante nel mercato. I suoi recenti annunci hanno indicato una riduzione dei costi dei token fino a 10 volte grazie all’architettura Blackwell, consolidando ulteriormente la sua posizione. Sachin Katti di OpenAI ha sottolineato le “capacità complementari” offerte da Cerebras, ma sembra che la fedeltà del laboratorio di intelligenza artificiale nel campo del calcolo rimanga principalmente a NVIDIA. L’emergere di Codex-Spark, tuttavia, evidenzia un collo di bottiglia critico nella latenza, in cui l’attuale framework tecnologico di NVIDIA potrebbe non essere posizionato in modo ottimale per competere.

Guardando al futuro, il panorama del mercato dell’inferenza appare sempre più competitivo, con NVIDIA che si trova ad affrontare concorrenti formidabili come Cerebras, oltre alle innovazioni di altri produttori di ASIC e di rivali come AMD. Resta da vedere come queste dinamiche influenzeranno la strategia e il posizionamento di NVIDIA sul mercato nei prossimi anni.

Fonte e immagini

Il modello OpenAI Codex utilizza l’infrastruttura Cerebras, presentando una potente alternativa a NVIDIA per l’inferenza dell’IA

OpenAI raggiunge un notevole output di 1.000 TPS con la tecnologia ad alta velocità di Cerebras

Giochi extra PS Plus di febbraio 2026 con Marvel's Spider-Man 2 e importanti titoli indie

Micron lancia la produzione di massa del primo SSD PCIe Gen6 al mondo: il 9650 che offre velocità di lettura fino a 28 GB/s