Il sistema di intelligenza artificiale Catalina Pod di Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 e tecnologia avanzata di raffreddamento a liquido

Meta ha svelato dettagli significativi riguardanti il suo innovativo sistema di intelligenza artificiale Catalina, che sfrutta la tecnologia GB200 NVL72 di NVIDIA, insieme ai progressi nei sistemi Open Rack v3 e di raffreddamento a liquido.

Rivoluzionare i data center: la piattaforma Blackwell NVIDIA GB200 NVL72 personalizzata di Meta per il Catalina Pod

Nel 2022, Meta si è concentrata principalmente sui cluster GPU, che in genere comprendevano circa 6.000 unità, destinati principalmente a supportare algoritmi tradizionali di ranking e raccomandazione. Questi cluster operavano in genere con carichi che andavano da 128 a 512 GPU. Tuttavia, nell’ultimo anno si è verificata una notevole trasformazione, guidata dall’ascesa esponenziale dell’IA generativa (GenAI) e dei modelli linguistici di grandi dimensioni (LLM).

Crescita delle dimensioni del cluster AI per anno

Oggi, i cluster GPU di Meta hanno raggiunto un’impressionante dimensione, passando da 16.000 a 24.000 GPU, quadruplicando il loro numero. Lo scorso anno, l’azienda gestiva oltre 100.000 GPU e continua a crescere. Grazie a innovazioni software come il modello LLama, Meta prevede un incredibile aumento di dieci volte delle dimensioni dei suoi cluster nel prossimo futuro.

Collaborazione tra Meta, NVIDIA e Open Compute Project

Meta ha avviato il progetto Catalina in stretta collaborazione con NVIDIA, utilizzando la soluzione GPU NVL72 come elemento fondamentale. Sono state apportate modifiche per adattare il sistema alle loro specifiche esigenze ed entrambe le aziende hanno contribuito con progetti di riferimento per MGX e NVL72 a un framework open source, consentendone l’ampia accessibilità sul sito web dell’Open Compute Project.

Il sistema Catalina rappresenta le implementazioni all’avanguardia di Meta nei suoi data center, in cui ogni configurazione di sistema è definita “pod”.Questa progettazione modulare consente la rapida scalabilità dei sistemi duplicando il framework di base.

Configurazione del sistema NVIDIA MGX GB200

Configurazione di Meta Catalina con Grace CPU

Una caratteristica distintiva del design NVL72 personalizzato di Meta sono i suoi doppi rack IT, ciascuno dei quali forma un singolo dominio di scalabilità verticale di 72 GPU. La coerenza è mantenuta nella configurazione di entrambi i rack, che ospitano 18 vassoi di elaborazione posizionati tra la sezione superiore e quella inferiore, insieme a nove switch NV su ciascun lato. L’integrazione di cavi ridondanti è fondamentale per unificare le risorse GPU su entrambi i rack, creando di fatto un unico dominio di elaborazione.

Confronto tra le risorse NVIDIA e Meta GB200 NVL72

Ogni rack ospita anche grandi unità di raffreddamento a liquido assistito ad aria (ALC), progettate per facilitare le operazioni ad alta densità di potenza. Questa configurazione consente a Meta di implementare in modo efficiente i sistemi di raffreddamento a liquido nei data center in tutto il Nord America e nel mondo.

Panoramica dell'architettura di Catalina

Grazie a questi doppi rack, Meta può raddoppiare efficacemente il numero di CPU e massimizzare la capacità di memoria, consentendo fino a 34 TB di memoria LPDDR per rack, raggiungendo così un totale combinato di 48 TB di memoria cache-coherent accessibile sia da GPU che da CPU. Gli alimentatori (PSU) funzionano a 480 volt o 277 volt monofase, convertendosi in 48 volt CC, che alimenta tutti i server blade, i dispositivi di rete e gli switch NV all’interno dell’architettura.

Sistemi di raffreddamento del data center

Sistema di rilevamento perdite nel data center

Rete Fabric disaggregata programmata ottimizzata dall'intelligenza artificiale

Configurazione della rete GPU con interconnessioni Catalina

Inoltre, la configurazione prevede un ripiano per l’alimentatore sia nella parte superiore che inferiore di ogni rack, completato da unità aggiuntive alla base. Meta ha implementato un pannello di gestione della fibra ottica specializzato che gestisce tutto il cablaggio interno in fibra ottica collegato alla rete back-end, garantendo una connettività fluida agli switch endpoint che facilitano la scalabilità del dominio.

A supporto della solida infrastruttura, Meta ha integrato tecnologie avanzate proprie del sistema NVIDIA NVL72 GB200 Blackwell, insieme a miglioramenti esclusivi come alimentatori e blade ad alta capacità. I sistemi di raffreddamento a liquido, abbinati al rack management controller (RMC), garantiscono una gestione efficiente dei protocolli di raffreddamento, monitorando contemporaneamente eventuali perdite.

Primo piano della scheda hardware DC-SCM

Diagramma di progettazione e connettività RMC

Questa implementazione significativa dell’OpenRack v3 ad alta capacità di Meta migliora l’allocazione di potenza all’interno dei rack, portandola a ben 94 kW a 600 A, rendendola compatibile con strutture avanzate dotate di sistemi di raffreddamento a liquido integrati. La gestione efficiente del flusso di liquido è affidata all’RMC, che monitora i vari componenti all’interno del rack per individuare potenziali perdite e, contemporaneamente, gestisce il funzionamento ottimale dei sistemi di raffreddamento.

Diagramma dell'architettura del vassoio di calcolo

Inoltre, l’adozione da parte di Meta di un fabric schedulato disaggregato consente l’interconnessione di più pod all’interno di singole strutture dati, facilitando un modello scalabile in grado di collegare senza soluzione di continuità più edifici. Questa infrastruttura è pensata per applicazioni di intelligenza artificiale, migliorando la comunicazione tra GPU e la flessibilità complessiva del sistema.

Fonte e immagini

Il sistema di intelligenza artificiale Catalina Pod di Meta integra NVIDIA Blackwell GB200 NVL72, Open Rack v3 e tecnologia avanzata di raffreddamento a liquido

Rivoluzionare i data center: la piattaforma Blackwell NVIDIA GB200 NVL72 personalizzata di Meta per il Catalina Pod

Articoli correlati:

GPU NVIDIA Blackwell Ultra “GB300”: svelato il chip AI più veloce con doppio reticolo, oltre 20.000 core, 288 GB di memoria HBM3e a 8 TB/s, 50% più veloce di GB200

NVIDIA svela approfondimenti tecnici sui rack Blackwell GB200 e GB300 NVL, sui vassoi e sulle iniziative di Open Compute di MGX

Lascia un commento Annulla risposta