OpenAI ha compiuto un significativo passo avanti nel suo percorso tecnologico integrando i chip di intelligenza artificiale avanzata di Cerebras nelle sue operazioni. Questa collaborazione segna un momento cruciale, evidenziando il più ampio cambiamento nel panorama informatico, con OpenAI che annuncia che il suo ultimo modello, il Codex, è ora supportato da Cerebras, in aggiunta alla tradizionale dipendenza da NVIDIA.
OpenAI raggiunge un notevole output di 1.000 TPS con la tecnologia ad alta velocità di Cerebras
Mentre OpenAI navigava nel suo rapporto finanziario con NVIDIA, è degno di nota che la sua precedente partnership con Cerebras si sia rivelata un punto di svolta nel dominio del calcolo. Nella recente pubblicazione di GPT-5.3-Codex-Spark, OpenAI ha evidenziato i vantaggi dell’hardware di Cerebras, in particolare le sue eccezionali prestazioni a “bassa latenza” nelle attività di inferenza. Questa collaborazione rappresenta una sfida formidabile per il predominio di NVIDIA, in particolare nell’area dell’inferenza di modelli.
La variante Codex-Spark si distingue dai modelli Codex tradizionali per la sua capacità di migliorare l’efficienza operativa. OpenAI afferma che questo modello è specificamente progettato per una reattività immediata, con conseguenti notevoli miglioramenti nella latenza. Ottimizzando le pipeline di elaborazione e utilizzando efficacemente l’hardware all’avanguardia di Cerebras, l’azienda afferma di aver ridotto il time-to-first-token di un sorprendente 50%, a dimostrazione delle sue capacità. In particolare, Codex-Spark opera sul Cerebras Wafer Scale Engine 3, vantando specifiche impressionanti, come evidenziato di seguito:
| Specifica | WSE-3 |
|---|---|
| Nodo di processo | TSMC 5nm |
| Transistor | ~4 trilioni |
| Core di elaborazione | 900.000 core ottimizzati per l’intelligenza artificiale |
| SRAM su chip | 44 GB |
| Larghezza di banda della memoria (su chip) | 21 PB/s |
| Dimensione del wafer | Chip completo da 300 mm su scala wafer |
| Architettura di base | Core di elaborazione programmabili ottimizzati per l’intelligenza artificiale |
La logica alla base della scelta di Cerebras da parte di OpenAI può essere attribuita principalmente alla significativa larghezza di banda di memoria offerta da WSE-3, essenziale per attività che richiedono molta memoria come la codifica. Questo supporto ad alta capacità consente a Codex-Spark di raggiungere un throughput impressionante di 1.000 transazioni al secondo (TPS), rendendolo reattivo quanto un “programmatore umano in coppia”.È interessante notare che addestrare questo modello sull’infrastruttura di NVIDIA sarebbe economicamente inefficiente a causa della sua attenzione all’elaborazione batch rispetto alle prestazioni a bassa latenza, quindi Cerebras si rivela una scelta logica.

Nonostante le promettenti capacità di Cerebras negli scenari di inferenza, NVIDIA continua a svolgere un ruolo dominante nel mercato. I suoi recenti annunci hanno indicato una riduzione dei costi dei token fino a 10 volte grazie all’architettura Blackwell, consolidando ulteriormente la sua posizione. Sachin Katti di OpenAI ha sottolineato le “capacità complementari” offerte da Cerebras, ma sembra che la fedeltà del laboratorio di intelligenza artificiale nel campo del calcolo rimanga principalmente a NVIDIA. L’emergere di Codex-Spark, tuttavia, evidenzia un collo di bottiglia critico nella latenza, in cui l’attuale framework tecnologico di NVIDIA potrebbe non essere posizionato in modo ottimale per competere.
Guardando al futuro, il panorama del mercato dell’inferenza appare sempre più competitivo, con NVIDIA che si trova ad affrontare concorrenti formidabili come Cerebras, oltre alle innovazioni di altri produttori di ASIC e di rivali come AMD. Resta da vedere come queste dinamiche influenzeranno la strategia e il posizionamento di NVIDIA sul mercato nei prossimi anni.
Lascia un commento