System Meta Catalina Pod AI integruje NVIDIA Blackwell GB200 NVL72, Open Rack v3 i zaawansowaną technologię chłodzenia cieczą

System Meta Catalina Pod AI integruje NVIDIA Blackwell GB200 NVL72, Open Rack v3 i zaawansowaną technologię chłodzenia cieczą

Firma Meta ujawniła istotne szczegóły dotyczące swojego innowacyjnego systemu Catalina AI, który wykorzystuje technologię GB200 NVL72 firmy NVIDIA, a także udoskonalenia w zakresie Open Rack v3 i systemów chłodzenia cieczą.

Rewolucja w centrach danych: niestandardowa platforma NVIDIA GB200 NVL72 Blackwell firmy Meta dla Catalina Pod

W 2022 roku Meta koncentrowała się przede wszystkim na klastrach GPU, które zazwyczaj składały się z około 6000 jednostek i były przeznaczone głównie do obsługi tradycyjnych algorytmów rankingowych i rekomendacyjnych. Klastry te zazwyczaj działały z obciążeniem od 128 do 512 GPU. Jednak w ciągu ostatniego roku nastąpiła znacząca transformacja, napędzana gwałtownym rozwojem generatywnej sztucznej inteligencji (GenAI) i dużych modeli językowych (LLM).

Wzrost wielkości klastra AI w ujęciu rocznym

Przenieśmy się do dnia dzisiejszego, a klastry GPU Meta rozrosły się do imponującej skali od 16 000 do 24 000 GPU, co oznacza czterokrotny wzrost. W zeszłym roku firma obsługiwała ponad 100 000 GPU i nadal się rozwija. Dzięki postępom w oprogramowaniu, takim jak model LLama, Meta prognozuje oszałamiający, dziesięciokrotny wzrost rozmiarów swoich klastrów w najbliższej przyszłości.

Współpraca Meta, NVIDIA i Open Compute Project

Firma Meta zainicjowała projekt Catalina w ścisłej współpracy z firmą NVIDIA, wykorzystując rozwiązanie GPU NVL72 jako element bazowy. Wprowadzono zmiany w celu dostosowania systemu do ich specyficznych wymagań, a obie firmy udostępniły projekty referencyjne dla MGX i NVL72 w ramach otwartego środowiska programistycznego, umożliwiając szeroki dostęp do nich na stronie internetowej Open Compute Project.

Stojaki IT do centrów danych

System Catalina to najnowocześniejsze rozwiązania firmy Meta wdrożone w jej centrach danych, przy czym każda konfiguracja systemu jest określana mianem „podu”.Ta modułowa konstrukcja umożliwia szybką skalowalność systemów poprzez powielanie podstawowych ram.

Konfiguracja systemu NVIDIA MGX GB200
Konfiguracja Meta Catalina z Grace CPU

Cechą charakterystyczną niestandardowego projektu NVL72 firmy Meta są dwie szafy IT, z których każda tworzy pojedynczą, skalowalną domenę 72 procesorów GPU. Spójność konfiguracji obu szaf została zachowana, mieszcząc 18 półek obliczeniowych umieszczonych pomiędzy górną a dolną sekcją oraz dziewięć przełączników NV po każdej stronie. Integracja redundantnego okablowania ma kluczowe znaczenie dla ujednolicenia zasobów GPU w obu szafach, skutecznie tworząc pojedynczą domenę obliczeniową.

Porównanie zasobów NVIDIA i Meta GB200 NVL72

Każda szafa mieści również duże jednostki chłodzenia cieczą wspomaganą powietrzem (ALC), zaprojektowane z myślą o obsłudze operacji o wysokiej gęstości mocy. Taka konfiguracja umożliwia firmie Meta efektywne wdrażanie systemów chłodzenia cieczą w centrach danych w Ameryce Północnej i na całym świecie.

Przegląd architektury Catalina

Dzięki tym podwójnym szafom Meta może skutecznie podwoić liczbę procesorów i zmaksymalizować pojemność pamięci, umożliwiając do 34 TB pamięci LPDDR na szafę, co daje łącznie 48 TB pamięci z koherentną pamięcią podręczną, dostępnej zarówno dla procesorów graficznych, jak i procesorów. Zasilacze (PSU) działają przy napięciu jednofazowym 480 V lub 277 V, konwertując je na prąd stały 48 V, który zasila wszystkie serwery blade, urządzenia sieciowe i przełączniki NV w architekturze.

Wdrażanie w szafach o dużej mocy
Systemy chłodzenia centrów danych
System wykrywania wycieków w centrum danych
Zoptymalizowana pod kątem sztucznej inteligencji, rozproszona, planowana sieć szkieletowa
Konfiguracja sieci GPU z połączeniami Catalina

Dodatkowo, konfiguracja obejmuje półkę zasilającą zarówno u góry, jak i u dołu każdej szafy, uzupełnioną o dodatkowe moduły u podstawy. Meta wdrożyła specjalistyczny panel ścieżek światłowodowych, który zarządza całym wewnętrznym okablowaniem światłowodowym podłączonym do sieci zaplecza, zapewniając płynną łączność z przełącznikami końcowymi, co ułatwia skalowanie domeny.

Schemat tacy obliczeniowej

Wspierając solidną infrastrukturę, Meta zintegrowała zaawansowane technologie wbudowane w system NVIDIA NVL72 GB200 Blackwell, a także unikalne udoskonalenia, takie jak zasilacze o dużej pojemności i moduły blade. Systemy chłodzenia cieczą, w połączeniu z kontrolerem zarządzania szafą (RMC), zapewniają wydajne zarządzanie protokołami chłodzenia przy jednoczesnym monitorowaniu wycieków.

Meta Board kontra Nvidia GB200 Reference
Zbliżenie płytki drukowanej PDB
Schemat dystrybucji mocy
Zbliżenie płyty sprzętowej DC-SCM
Schemat projektu i łączności RMC
Wykres wykrywania wycieków

To znaczące wdrożenie systemu OpenRack v3 firmy Meta o dużej wydajności zwiększa alokację mocy w szafach rack do imponujących 94 kW przy 600 A, co czyni go kompatybilnym z zaawansowanymi systemami chłodzenia cieczą. Zarządzanie przepływem cieczy odbywa się sprawnie za pomocą systemu RMC, który monitoruje różne komponenty w szafie rack pod kątem potencjalnych wycieków, jednocześnie koordynując optymalną pracę systemów chłodzenia.

Schemat architektury zasobnika obliczeniowego

Co więcej, wdrożenie przez Meta zdezagregowanej, zaplanowanej struktury umożliwia połączenie wielu kontenerów w ramach jednego centrum danych, co pozwala na stworzenie skalowalnego modelu, który może płynnie łączyć wiele budynków. Infrastruktura ta jest dostosowana do zastosowań AI, usprawniając komunikację między procesorami graficznymi i ogólną elastyczność systemu.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *