
Meta ha svelato dettagli significativi riguardanti il suo innovativo sistema di intelligenza artificiale Catalina, che sfrutta la tecnologia GB200 NVL72 di NVIDIA, insieme ai progressi nei sistemi Open Rack v3 e di raffreddamento a liquido.
Rivoluzionare i data center: la piattaforma Blackwell NVIDIA GB200 NVL72 personalizzata di Meta per il Catalina Pod
Nel 2022, Meta si è concentrata principalmente sui cluster GPU, che in genere comprendevano circa 6.000 unità, destinati principalmente a supportare algoritmi tradizionali di ranking e raccomandazione. Questi cluster operavano in genere con carichi che andavano da 128 a 512 GPU. Tuttavia, nell’ultimo anno si è verificata una notevole trasformazione, guidata dall’ascesa esponenziale dell’IA generativa (GenAI) e dei modelli linguistici di grandi dimensioni (LLM).

Oggi, i cluster GPU di Meta hanno raggiunto un’impressionante dimensione, passando da 16.000 a 24.000 GPU, quadruplicando il loro numero. Lo scorso anno, l’azienda gestiva oltre 100.000 GPU e continua a crescere. Grazie a innovazioni software come il modello LLama, Meta prevede un incredibile aumento di dieci volte delle dimensioni dei suoi cluster nel prossimo futuro.

Meta ha avviato il progetto Catalina in stretta collaborazione con NVIDIA, utilizzando la soluzione GPU NVL72 come elemento fondamentale. Sono state apportate modifiche per adattare il sistema alle loro specifiche esigenze ed entrambe le aziende hanno contribuito con progetti di riferimento per MGX e NVL72 a un framework open source, consentendone l’ampia accessibilità sul sito web dell’Open Compute Project.

Il sistema Catalina rappresenta le implementazioni all’avanguardia di Meta nei suoi data center, in cui ogni configurazione di sistema è definita “pod”.Questa progettazione modulare consente la rapida scalabilità dei sistemi duplicando il framework di base.


Una caratteristica distintiva del design NVL72 personalizzato di Meta sono i suoi doppi rack IT, ciascuno dei quali forma un singolo dominio di scalabilità verticale di 72 GPU. La coerenza è mantenuta nella configurazione di entrambi i rack, che ospitano 18 vassoi di elaborazione posizionati tra la sezione superiore e quella inferiore, insieme a nove switch NV su ciascun lato. L’integrazione di cavi ridondanti è fondamentale per unificare le risorse GPU su entrambi i rack, creando di fatto un unico dominio di elaborazione.

Ogni rack ospita anche grandi unità di raffreddamento a liquido assistito ad aria (ALC), progettate per facilitare le operazioni ad alta densità di potenza. Questa configurazione consente a Meta di implementare in modo efficiente i sistemi di raffreddamento a liquido nei data center in tutto il Nord America e nel mondo.

Grazie a questi doppi rack, Meta può raddoppiare efficacemente il numero di CPU e massimizzare la capacità di memoria, consentendo fino a 34 TB di memoria LPDDR per rack, raggiungendo così un totale combinato di 48 TB di memoria cache-coherent accessibile sia da GPU che da CPU. Gli alimentatori (PSU) funzionano a 480 volt o 277 volt monofase, convertendosi in 48 volt CC, che alimenta tutti i server blade, i dispositivi di rete e gli switch NV all’interno dell’architettura.





Inoltre, la configurazione prevede un ripiano per l’alimentatore sia nella parte superiore che inferiore di ogni rack, completato da unità aggiuntive alla base. Meta ha implementato un pannello di gestione della fibra ottica specializzato che gestisce tutto il cablaggio interno in fibra ottica collegato alla rete back-end, garantendo una connettività fluida agli switch endpoint che facilitano la scalabilità del dominio.

A supporto della solida infrastruttura, Meta ha integrato tecnologie avanzate proprie del sistema NVIDIA NVL72 GB200 Blackwell, insieme a miglioramenti esclusivi come alimentatori e blade ad alta capacità. I sistemi di raffreddamento a liquido, abbinati al rack management controller (RMC), garantiscono una gestione efficiente dei protocolli di raffreddamento, monitorando contemporaneamente eventuali perdite.






Questa implementazione significativa dell’OpenRack v3 ad alta capacità di Meta migliora l’allocazione di potenza all’interno dei rack, portandola a ben 94 kW a 600 A, rendendola compatibile con strutture avanzate dotate di sistemi di raffreddamento a liquido integrati. La gestione efficiente del flusso di liquido è affidata all’RMC, che monitora i vari componenti all’interno del rack per individuare potenziali perdite e, contemporaneamente, gestisce il funzionamento ottimale dei sistemi di raffreddamento.

Inoltre, l’adozione da parte di Meta di un fabric schedulato disaggregato consente l’interconnessione di più pod all’interno di singole strutture dati, facilitando un modello scalabile in grado di collegare senza soluzione di continuità più edifici. Questa infrastruttura è pensata per applicazioni di intelligenza artificiale, migliorando la comunicazione tra GPU e la flessibilità complessiva del sistema.
Lascia un commento