
Firma Meta ujawniła istotne szczegóły dotyczące swojego innowacyjnego systemu Catalina AI, który wykorzystuje technologię GB200 NVL72 firmy NVIDIA, a także udoskonalenia w zakresie Open Rack v3 i systemów chłodzenia cieczą.
Rewolucja w centrach danych: niestandardowa platforma NVIDIA GB200 NVL72 Blackwell firmy Meta dla Catalina Pod
W 2022 roku Meta koncentrowała się przede wszystkim na klastrach GPU, które zazwyczaj składały się z około 6000 jednostek i były przeznaczone głównie do obsługi tradycyjnych algorytmów rankingowych i rekomendacyjnych. Klastry te zazwyczaj działały z obciążeniem od 128 do 512 GPU. Jednak w ciągu ostatniego roku nastąpiła znacząca transformacja, napędzana gwałtownym rozwojem generatywnej sztucznej inteligencji (GenAI) i dużych modeli językowych (LLM).

Przenieśmy się do dnia dzisiejszego, a klastry GPU Meta rozrosły się do imponującej skali od 16 000 do 24 000 GPU, co oznacza czterokrotny wzrost. W zeszłym roku firma obsługiwała ponad 100 000 GPU i nadal się rozwija. Dzięki postępom w oprogramowaniu, takim jak model LLama, Meta prognozuje oszałamiający, dziesięciokrotny wzrost rozmiarów swoich klastrów w najbliższej przyszłości.

Firma Meta zainicjowała projekt Catalina w ścisłej współpracy z firmą NVIDIA, wykorzystując rozwiązanie GPU NVL72 jako element bazowy. Wprowadzono zmiany w celu dostosowania systemu do ich specyficznych wymagań, a obie firmy udostępniły projekty referencyjne dla MGX i NVL72 w ramach otwartego środowiska programistycznego, umożliwiając szeroki dostęp do nich na stronie internetowej Open Compute Project.

System Catalina to najnowocześniejsze rozwiązania firmy Meta wdrożone w jej centrach danych, przy czym każda konfiguracja systemu jest określana mianem „podu”.Ta modułowa konstrukcja umożliwia szybką skalowalność systemów poprzez powielanie podstawowych ram.


Cechą charakterystyczną niestandardowego projektu NVL72 firmy Meta są dwie szafy IT, z których każda tworzy pojedynczą, skalowalną domenę 72 procesorów GPU. Spójność konfiguracji obu szaf została zachowana, mieszcząc 18 półek obliczeniowych umieszczonych pomiędzy górną a dolną sekcją oraz dziewięć przełączników NV po każdej stronie. Integracja redundantnego okablowania ma kluczowe znaczenie dla ujednolicenia zasobów GPU w obu szafach, skutecznie tworząc pojedynczą domenę obliczeniową.

Każda szafa mieści również duże jednostki chłodzenia cieczą wspomaganą powietrzem (ALC), zaprojektowane z myślą o obsłudze operacji o wysokiej gęstości mocy. Taka konfiguracja umożliwia firmie Meta efektywne wdrażanie systemów chłodzenia cieczą w centrach danych w Ameryce Północnej i na całym świecie.

Dzięki tym podwójnym szafom Meta może skutecznie podwoić liczbę procesorów i zmaksymalizować pojemność pamięci, umożliwiając do 34 TB pamięci LPDDR na szafę, co daje łącznie 48 TB pamięci z koherentną pamięcią podręczną, dostępnej zarówno dla procesorów graficznych, jak i procesorów. Zasilacze (PSU) działają przy napięciu jednofazowym 480 V lub 277 V, konwertując je na prąd stały 48 V, który zasila wszystkie serwery blade, urządzenia sieciowe i przełączniki NV w architekturze.





Dodatkowo, konfiguracja obejmuje półkę zasilającą zarówno u góry, jak i u dołu każdej szafy, uzupełnioną o dodatkowe moduły u podstawy. Meta wdrożyła specjalistyczny panel ścieżek światłowodowych, który zarządza całym wewnętrznym okablowaniem światłowodowym podłączonym do sieci zaplecza, zapewniając płynną łączność z przełącznikami końcowymi, co ułatwia skalowanie domeny.

Wspierając solidną infrastrukturę, Meta zintegrowała zaawansowane technologie wbudowane w system NVIDIA NVL72 GB200 Blackwell, a także unikalne udoskonalenia, takie jak zasilacze o dużej pojemności i moduły blade. Systemy chłodzenia cieczą, w połączeniu z kontrolerem zarządzania szafą (RMC), zapewniają wydajne zarządzanie protokołami chłodzenia przy jednoczesnym monitorowaniu wycieków.






To znaczące wdrożenie systemu OpenRack v3 firmy Meta o dużej wydajności zwiększa alokację mocy w szafach rack do imponujących 94 kW przy 600 A, co czyni go kompatybilnym z zaawansowanymi systemami chłodzenia cieczą. Zarządzanie przepływem cieczy odbywa się sprawnie za pomocą systemu RMC, który monitoruje różne komponenty w szafie rack pod kątem potencjalnych wycieków, jednocześnie koordynując optymalną pracę systemów chłodzenia.

Co więcej, wdrożenie przez Meta zdezagregowanej, zaplanowanej struktury umożliwia połączenie wielu kontenerów w ramach jednego centrum danych, co pozwala na stworzenie skalowalnego modelu, który może płynnie łączyć wiele budynków. Infrastruktura ta jest dostosowana do zastosowań AI, usprawniając komunikację między procesorami graficznymi i ogólną elastyczność systemu.
Dodaj komentarz