CoreWeave ottiene un throughput GPU 6 volte superiore rispetto a NVIDIA GB300 NVL72 e H100 in DeepSeek R1

CoreWeave ottiene un throughput GPU 6 volte superiore rispetto a NVIDIA GB300 NVL72 e H100 in DeepSeek R1

Il superchip NVIDIA Blackwell AI appena lanciato, noto come GB300, supera significativamente il suo predecessore, la GPU H100, ottimizzando il parallelismo dei tensori per fornire prestazioni di throughput notevolmente migliorate.

NVIDIA GB300: memoria e larghezza di banda migliorate per ottenere una produttività superiore rispetto a H100

L’introduzione dei superchip AI basati su Blackwell di NVIDIA segna un progresso fondamentale nella tecnologia GPU. Il GB300 rappresenta il prodotto più avanzato di NVIDIA fino ad oggi, mostrando notevoli miglioramenti nelle capacità di calcolo, oltre a una maggiore capacità di memoria e larghezza di banda. Questi miglioramenti sono fondamentali per la gestione di attività di intelligenza artificiale complesse. Un recente benchmark condotto da CoreWeave illustra il potenziale del GB300: raggiunge un throughput notevolmente più elevato grazie a una riduzione del parallelismo tensoriale.

Nei test condotti da CoreWeave utilizzando il modello di ragionamento DeepSeek R1, un framework di intelligenza artificiale complesso, è emersa una notevole differenza tra le due piattaforme. L’esecuzione del modello DeepSeek R1 richiedeva un cluster di 16 GPU NVIDIA H100, mentre solo quattro GPU GB300 operanti sull’infrastruttura NVIDIA GB300 NVL72 erano sufficienti per completare lo stesso compito. Sorprendentemente, il sistema GB300 è in grado di fornire un throughput grezzo per GPU 6 volte superiore, sottolineando le sue prestazioni superiori in carichi di lavoro di intelligenza artificiale complessi rispetto all’H100.

Grafico di riferimento: 4 GPU GB300 superano 16 GPU H100 in termini di throughput di 6, 5 token/s.
Credito immagine: CoreWeave

I risultati dimostrano un vantaggio significativo per il GB300, che sfrutta una configurazione semplificata con parallelismo tensoriale a 4 vie. Questa riduzione del parallelismo migliora la comunicazione tra GPU, mentre la maggiore capacità di memoria e la larghezza di banda contribuiscono a sostanziali miglioramenti delle prestazioni. La piattaforma GB300 NVL72 beneficia delle interconnessioni NVLink e NVSwitch ad alta larghezza di banda, facilitando rapidi scambi di dati tra GPU.

Questo progresso tecnologico si traduce in vantaggi tangibili per gli utenti, consentendo una generazione di token più rapida e una latenza ridotta, consentendo così una scalabilità più efficace delle operazioni di intelligenza artificiale negli ambienti aziendali. CoreWeave ha sottolineato le straordinarie specifiche del sistema rack-scale NVIDIA GB300 NVL72, che vanta un’incredibile capacità di memoria di 37 TB (con il potenziale di supportare fino a 40 TB), ideale per la gestione di modelli di intelligenza artificiale di grandi dimensioni e complessi, completata da capacità di interconnessione che raggiungono fino a 130 TB/s di larghezza di banda di memoria.

Specifiche NVIDIA GB300 NVL72: GPU, CPU, larghezza di banda della memoria, prestazioni dei tensor core.

In definitiva, NVIDIA GB300 va oltre la semplice fornitura di TFLOP impressionanti: enfatizza l’efficienza operativa. Riducendo al minimo il parallelismo tensoriale, GB300 riduce il sovraccarico di comunicazione tra GPU, che in genere ostacola i processi di addestramento e inferenza dell’IA su larga scala. Di conseguenza, le aziende possono ora ottenere un throughput significativamente più elevato con un numero inferiore di GPU, con conseguenti riduzioni dei costi e una migliore scalabilità nelle implementazioni di IA.

Fonte della notizia: CoreWeave

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *