Le modèle OpenAI Codex utilise l’infrastructure Cerebras, offrant une alternative performante à NVIDIA pour l’inférence IA.

OpenAI franchit une étape technologique majeure en intégrant les puces d’IA avancées de Cerebras à ses opérations. Cette collaboration marque un tournant décisif et illustre la transformation profonde du paysage informatique, OpenAI révélant que son dernier modèle, Codex, bénéficie désormais du soutien de Cerebras, en plus de sa dépendance traditionnelle à NVIDIA.

OpenAI atteint un débit remarquable de 1 000 TPS grâce à la technologie haute vitesse de Cerebras

Alors qu’OpenAI gère sa relation financière avec NVIDIA, il est important de noter que son partenariat antérieur avec Cerebras s’est révélé déterminant dans le domaine du calcul. Lors de la récente publication de GPT-5.3-Codex-Spark, OpenAI a mis en avant les avantages du matériel de Cerebras, notamment ses performances exceptionnelles en matière de faible latence pour les tâches d’inférence. Cette collaboration représente un défi de taille pour la domination de NVIDIA, en particulier dans le domaine de l’inférence de modèles.

La variante Codex-Spark se distingue des modèles Codex traditionnels par sa capacité à améliorer l’efficacité opérationnelle. OpenAI affirme que ce modèle est spécifiquement conçu pour une réactivité immédiate, ce qui permet d’améliorer considérablement la latence. En optimisant les pipelines de traitement et en exploitant efficacement le matériel de pointe de Cerebras, l’entreprise revendique une réduction impressionnante de 50 % du temps d’obtention du premier jeton, soulignant ainsi ses performances. Codex-Spark fonctionne notamment sur le Wafer Scale Engine 3 de Cerebras, dont les spécifications impressionnantes sont détaillées ci-dessous :

Spécification WSE-3
Nœud de processus TSMC 5 nm
Transistors ~4 billions
Cœurs de calcul 900 000 cœurs optimisés pour l’IA
SRAM intégrée 44 Go
Bande passante mémoire (sur puce) 21 PB/s
Taille de la plaquette Puce à l’échelle d’une plaquette de 300 mm
Architecture de base Cœurs de traitement programmables optimisés par l’IA

Le choix de Cerebras par OpenAI s’explique principalement par l’importante bande passante mémoire offerte par le WSE-3, essentielle pour les tâches gourmandes en mémoire telles que la programmation. Cette capacité élevée permet à Codex-Spark d’atteindre un débit impressionnant de 1 000 transactions par seconde (TPS), le rendant aussi réactif qu’un binôme de programmeurs. Il est intéressant de noter que l’entraînement de ce modèle sur l’infrastructure NVIDIA serait économiquement inefficace en raison de sa priorité donnée au traitement par lots plutôt qu’à la faible latence ; Cerebras apparaît donc comme un choix logique.

Comparaison des processeurs Cerebras Wafer Scale Engine 3 et NVIDIA H100
Crédits photo : Cerebras

Malgré les capacités prometteuses de Cerebras en matière d’inférence, NVIDIA conserve une position dominante sur le marché. Ses récentes annonces ont révélé une réduction du coût des jetons jusqu’à dix fois supérieure grâce à son architecture Blackwell, consolidant ainsi sa position de force. Sachin Katti d’OpenAI a souligné les « capacités complémentaires » offertes par Cerebras, mais il semble que le laboratoire d’IA privilégie toujours NVIDIA dans la course à la puissance de calcul. L’émergence de Codex Spark met cependant en lumière un goulot d’étranglement critique : la latence. Le cadre technologique actuel de NVIDIA pourrait ne pas être optimal pour rivaliser avec ce modèle.

À l’avenir, le marché de l’inférence s’annonce de plus en plus concurrentiel, NVIDIA devant faire face à des rivaux de taille comme Cerebras, ainsi qu’aux innovations d’autres fabricants de circuits intégrés spécifiques (ASIC) et de concurrents tels qu’AMD. L’impact de cette dynamique sur la stratégie et le positionnement de NVIDIA sur le marché dans les années à venir reste à déterminer.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *