
Firma NVIDIA niedawno przeprowadziła szczegółową analizę swoich systemów Blackwell GB200 i GB300, skupiając się na ich projektach architektonicznych, stelażach, tackach i integracji z projektem Open Compute Project (OCP).
NVIDIA prezentuje architekturę Blackwell i wkład Open Compute na konferencji Hot Chips 2025
Podczas konferencji Hot Chips 2025 firma NVIDIA rozszerzyła swoją wizję zaawansowanych rozwiązań obliczeniowych, wprowadzając platformę Blackwell Ultra, po ubiegłorocznym sukcesie pierwszych serwerów Blackwell. Inżynier mechanik John Norton poprowadził obszerną prezentację, w której przeanalizował systemy GB200 i GB300 w ramach zaangażowania firmy NVIDIA w otwarte standardy obliczeniowe.
Prezentacja rozpoczęła się od szczegółowego omówienia architektury MGX, którą NVIDIA wniosła do OCP w poprzednim roku. Norton omówił różne przeszkody napotkane podczas opracowywania modeli GB200 i GB300, podkreślając wszechstronność potrzebną w szerokim zakresie zastosowań wykraczających poza sztuczną inteligencję i wnioskowanie.

Architektura MGX została zaprojektowana specjalnie z myślą o złożoności akceleratorów skalowalnych dla zróżnicowanych obciążeń na całym świecie. Potrzeby klientów były zróżnicowane, od unikalnych wymagań sieciowych po niestandardowe konfiguracje procesorów CPU i GPU. W związku z tym NVIDIA wdrożyła iteracyjne podejście do rozwoju systemu, uznając, że drobne modyfikacje mogą mieć znaczące implikacje dla wszystkich obszarów. Ta świadomość doprowadziła do powstania modułowej architektury MGX.
Dzieląc system na mniejsze, interoperacyjne komponenty, NVIDIA umożliwia klientom modyfikację poszczególnych elementów bez konieczności gruntownej przebudowy całego systemu. To innowacyjne podejście nie tylko usprawnia początkowe inwestycje, ale także promuje elastyczną i otwartą platformę poprzez OCP, zachęcając do personalizacji na życzenie klienta.

Norton dodatkowo przeanalizował dwa kluczowe komponenty platformy MGX: infrastrukturę rackową MGX oraz moduły obliczeniowe i przełączniki MGX, które odegrały kluczową rolę w montażu systemów GB200 „Blackwell”.Zastosowanie przez firmę NVIDIA otwartych standardów projektowych zapewnia przejrzystość i dostępność. Firma udostępnia kompleksowe modele i specyfikacje, które można pobrać za pośrednictwem platformy OCP.

Podczas prezentacji NVIDIA przedstawiła szczegółowe specyfikacje platform GB200 i GB300. Konstrukcja szafy obejmuje przełączniki u góry, a następnie zasilacz, który przetwarza prąd przemienny wysokiego napięcia z centrum danych na prąd stały, który następnie jest dystrybuowany do całego systemu.

Konfiguracja GB200 obejmuje 300 układów scalonych w 10 półkach obliczeniowych, uzupełnionych o dziewięć półek przełącznikowych i kolejne osiem półek obliczeniowych. Co imponujące, każda półka obliczeniowa może zapewnić 80 FP4 petaflopów, co przekłada się na ogólną wydajność 1, 4 eksaflopa. Pobór mocy całego systemu wynosi około 120 kilowatów, przy czym każda półka obliczeniowa zużywa około 7 kilowatów, połączonych ze sobą za pomocą szkieletu NVLink.

NVLink działa z imponującą przepustowością 200 Gb/s na pasmo, umożliwiając komunikację z niskim opóźnieniem między tackami GPU i przełącznikami. To miedziane połączenie podkreśla zalety miedzi w zakresie przesyłu danych o dużej przepustowości.

NVIDIA przedstawiła również swoje podejście do specyfikacji szaf rack. Dzięki instalowaniu urządzeń w odstępach co 48 milimetrów – nieco mniejszych niż tradycyjny odstęp 44, 5 milimetra stosowany w standardowym sprzęcie korporacyjnym – firma maksymalizuje gęstość węzłów w swoich szafach rack, generując liczne korzyści operacyjne.

Zastosowano również udoskonaloną konstrukcję szyn zbiorczych, która może obsłużyć około 35 kilowatów, rozszerzoną do obsługi do 1400 amperów dzięki zwiększonemu przekrojowi miedzi, co umożliwia spełnienie większych wymagań dotyczących mocy.

Każda tacka obliczeniowa integruje dwa procesory CPU i cztery procesory GPU, w tym moduł procesora hosta (HPM) obsługujący jeden procesor Grace i dwa procesory GPU Blackwell. Innowacyjna konstrukcja pozwala na elastyczne opcje łączności, gwarantując bezproblemową integrację systemów wejścia/wyjścia.

Tace umożliwiają również dostosowywanie konfiguracji do różnych rozwiązań chłodzenia i opcji zarządzania kablami, podkreślając modułowość platformy w kontekście konkretnych zastosowań.

Tylna część obudowy komputera wyposażona jest w uniwersalne szybkozłącza UQD (Universal Quick Disconnects), które są standaryzowane przez OCP i obsługują pełne chłodzenie cieczą w celu zwiększenia wydajności.

Podsumowując, NVIDIA potwierdziła, że systemy GB200 i GB300 są już w pełni produkcyjne i wdrożone w różnych hiperskalowych centrach danych na całym świecie. Firma co roku wprowadza innowacje, zwiększając gęstość, efektywność energetyczną i rozwiązania chłodzące, a inicjatywy takie jak NVLink Fusion obiecują znaczący postęp w zakresie możliwości przetwarzania danych.
Dodaj komentarz