NVIDIA ujawnia techniczne informacje na temat szaf i tacek NVL Blackwell GB200 i GB300 oraz inicjatyw Open Compute firmy MGX

Firma NVIDIA niedawno przeprowadziła szczegółową analizę swoich systemów Blackwell GB200 i GB300, skupiając się na ich projektach architektonicznych, stelażach, tackach i integracji z projektem Open Compute Project (OCP).

NVIDIA prezentuje architekturę Blackwell i wkład Open Compute na konferencji Hot Chips 2025

Podczas konferencji Hot Chips 2025 firma NVIDIA rozszerzyła swoją wizję zaawansowanych rozwiązań obliczeniowych, wprowadzając platformę Blackwell Ultra, po ubiegłorocznym sukcesie pierwszych serwerów Blackwell. Inżynier mechanik John Norton poprowadził obszerną prezentację, w której przeanalizował systemy GB200 i GB300 w ramach zaangażowania firmy NVIDIA w otwarte standardy obliczeniowe.

Prezentacja rozpoczęła się od szczegółowego omówienia architektury MGX, którą NVIDIA wniosła do OCP w poprzednim roku. Norton omówił różne przeszkody napotkane podczas opracowywania modeli GB200 i GB300, podkreślając wszechstronność potrzebną w szerokim zakresie zastosowań wykraczających poza sztuczną inteligencję i wnioskowanie.

Studium przypadku NVIDIA GB200/300 autorstwa Johna Nortona, inżyniera mechanika. Prezentacja Hot Chips 2025.

Architektura MGX została zaprojektowana specjalnie z myślą o złożoności akceleratorów skalowalnych dla zróżnicowanych obciążeń na całym świecie. Potrzeby klientów były zróżnicowane, od unikalnych wymagań sieciowych po niestandardowe konfiguracje procesorów CPU i GPU. W związku z tym NVIDIA wdrożyła iteracyjne podejście do rozwoju systemu, uznając, że drobne modyfikacje mogą mieć znaczące implikacje dla wszystkich obszarów. Ta świadomość doprowadziła do powstania modułowej architektury MGX.

Dzieląc system na mniejsze, interoperacyjne komponenty, NVIDIA umożliwia klientom modyfikację poszczególnych elementów bez konieczności gruntownej przebudowy całego systemu. To innowacyjne podejście nie tylko usprawnia początkowe inwestycje, ale także promuje elastyczną i otwartą platformę poprzez OCP, zachęcając do personalizacji na życzenie klienta.

Wprowadzenie do MGX: Skalowalna, modułowa architektura zorientowana na procesory GPU, przeznaczona do rozwiązań wymagających przyspieszonych obliczeń.

Norton dodatkowo przeanalizował dwa kluczowe komponenty platformy MGX: infrastrukturę rackową MGX oraz moduły obliczeniowe i przełączniki MGX, które odegrały kluczową rolę w montażu systemów GB200 „Blackwell”.Zastosowanie przez firmę NVIDIA otwartych standardów projektowych zapewnia przejrzystość i dostępność. Firma udostępnia kompleksowe modele i specyfikacje, które można pobrać za pośrednictwem platformy OCP.

Specyfikacje stojaków i tac komputerowych MGX o modułowej konstrukcji dostosowanej do systemów OCP.

Podczas prezentacji NVIDIA przedstawiła szczegółowe specyfikacje platform GB200 i GB300. Konstrukcja szafy obejmuje przełączniki u góry, a następnie zasilacz, który przetwarza prąd przemienny wysokiego napięcia z centrum danych na prąd stały, który następnie jest dystrybuowany do całego systemu.

Układ szafy systemowej GB200/300 z interfejsem NVLINK i zasilaczami.

Konfiguracja GB200 obejmuje 300 układów scalonych w 10 półkach obliczeniowych, uzupełnionych o dziewięć półek przełącznikowych i kolejne osiem półek obliczeniowych. Co imponujące, każda półka obliczeniowa może zapewnić 80 FP4 petaflopów, co przekłada się na ogólną wydajność 1, 4 eksaflopa. Pobór mocy całego systemu wynosi około 120 kilowatów, przy czym każda półka obliczeniowa zużywa około 7 kilowatów, połączonych ze sobą za pomocą szkieletu NVLink.

Schemat poglądowy szafy GB200/300 przedstawiający wymiary i funkcje do zastosowań korporacyjnych.

NVLink działa z imponującą przepustowością 200 Gb/s na pasmo, umożliwiając komunikację z niskim opóźnieniem między tackami GPU i przełącznikami. To miedziane połączenie podkreśla zalety miedzi w zakresie przesyłu danych o dużej przepustowości.

Schemat układu chłodzenia cieczą i rdzeniem NVLINK zwiększającego wydajność centrum danych.

NVIDIA przedstawiła również swoje podejście do specyfikacji szaf rack. Dzięki instalowaniu urządzeń w odstępach co 48 milimetrów – nieco mniejszych niż tradycyjny odstęp 44, 5 milimetra stosowany w standardowym sprzęcie korporacyjnym – firma maksymalizuje gęstość węzłów w swoich szafach rack, generując liczne korzyści operacyjne.

Schemat korzyści 19 RU wynikających z efektywnego zagęszczenia mocy obliczeniowej i okablowania w centrach danych.

Zastosowano również udoskonaloną konstrukcję szyn zbiorczych, która może obsłużyć około 35 kilowatów, rozszerzoną do obsługi do 1400 amperów dzięki zwiększonemu przekrojowi miedzi, co umożliwia spełnienie większych wymagań dotyczących mocy.

Schemat topologii karty graficznej NVIDIA GB200/300 NVL Compute Tray PCIe dla połączenia 2P:4GPU.

Każda tacka obliczeniowa integruje dwa procesory CPU i cztery procesory GPU, w tym moduł procesora hosta (HPM) obsługujący jeden procesor Grace i dwa procesory GPU Blackwell. Innowacyjna konstrukcja pozwala na elastyczne opcje łączności, gwarantując bezproblemową integrację systemów wejścia/wyjścia.

Schemat akcelerowanych komputerów MGX z opisanymi komponentami.

Tace umożliwiają również dostosowywanie konfiguracji do różnych rozwiązań chłodzenia i opcji zarządzania kablami, podkreślając modułowość platformy w kontekście konkretnych zastosowań.

Schemat przełączników MGX Accelerated Computing Trays ze szczegółowym opisem podzespołów.

Tylna część obudowy komputera wyposażona jest w uniwersalne szybkozłącza UQD (Universal Quick Disconnects), które są standaryzowane przez OCP i obsługują pełne chłodzenie cieczą w celu zwiększenia wydajności.

Ewolucja architektury centrum danych dzięki NVLINK Fusion i zaawansowanej technologii chłodzenia.

Podsumowując, NVIDIA potwierdziła, że systemy GB200 i GB300 są już w pełni produkcyjne i wdrożone w różnych hiperskalowych centrach danych na całym świecie. Firma co roku wprowadza innowacje, zwiększając gęstość, efektywność energetyczną i rozwiązania chłodzące, a inicjatywy takie jak NVLink Fusion obiecują znaczący postęp w zakresie możliwości przetwarzania danych.

Źródło i obrazy

NVIDIA ujawnia techniczne informacje na temat szaf i tacek NVL Blackwell GB200 i GB300 oraz inicjatyw Open Compute firmy MGX

NVIDIA prezentuje architekturę Blackwell i wkład Open Compute na konferencji Hot Chips 2025

Powiązane artykuły:

System Meta Catalina Pod AI integruje NVIDIA Blackwell GB200 NVL72, Open Rack v3 i zaawansowaną technologię chłodzenia cieczą

SK hynix rozpoczyna masową produkcję 321-warstwowej pamięci flash QLC NAND do komputerów PC z innowacyjną technologią układania 32 warstw

Dodaj komentarz Anuluj pisanie odpowiedzi