Karta graficzna NVIDIA Blackwell Ultra „GB300”: prezentacja najszybszego układu AI z podwójnym retikiem, ponad 20 tys. rdzeni, 288 GB pamięci HBM3e o przepustowości 8 TB/s, o 50% szybszego niż GB200

Firma NVIDIA zaprezentowała swój najnowocześniejszy układ AI, Blackwell Ultra GB300, który charakteryzuje się niezwykłym wzrostem wydajności o 50% w porównaniu do swojego poprzednika, GB200, oraz imponującą pamięcią 288 GB.

Przedstawiamy Blackwell Ultra „GB300” firmy NVIDIA: rewolucyjny układ AI

Firma NVIDIA opublikowała niedawno szczegółowy artykuł opisujący specyfikację i możliwości układu Blackwell Ultra GB300. Ten najnowocześniejszy układ jest obecnie produkowany masowo i dostarczany wybranym klientom. Blackwell Ultra oferuje znaczną poprawę wydajności i funkcjonalności w porównaniu z poprzednimi modelami Blackwell.

Nawiązując do serii Super firmy NVIDIA, która stanowiła udoskonalenie oryginalnych kart do gier RTX, seria Ultra wzbogaca wcześniejsze oferty układów AI. Podczas gdy wcześniejsze linie, takie jak Hopper i Volta, nie posiadały funkcji Ultra, ich udoskonalenia położyły podwaliny pod obecne innowacje. Co więcej, znaczące ulepszenia są dostępne również dla modeli innych niż Ultra dzięki aktualizacjom oprogramowania i działaniom optymalizacyjnym.

Diagram procesora graficznego NVIDIA Blackwell Ultra przedstawiający szczegółowe specyfikacje architektury i łączności.

Blackwell Ultra GB300 to zaawansowana wersja, która łączy dwa układy scalone wielkości Reticle’a, połączone interfejsem NV-HBI o wysokiej przepustowości firmy NVIDIA, działając jako zunifikowany procesor graficzny (GPU).Zbudowany w oparciu o technologię 4NP firmy TSMC (zoptymalizowaną wersję węzła 5 nm), układ zawiera imponujące 208 miliardów tranzystorów i zapewnia niezwykłą wydajność z przepustowością 10 TB/s między dwoma układami.

Schemat architektury NVIDIA Streaming Multiprocessor z CUDA i rdzeniami Tensor.

Procesor graficzny (GPU) jest wyposażony w 160 multiprocesorów strumieniowych (SM), z których każdy zawiera łącznie 128 rdzeni CUDA. Zawiera cztery rdzenie Tensor piątej generacji, które obsługują precyzyjne obliczenia FP8, FP6 i NVFP4. Taka konstrukcja zapewnia łącznie 20 480 rdzeni CUDA i 640 rdzeni Tensor, a także 40 MB pamięci Tensor (TMEM).

Funkcja	Zbiornik	Blackwell	Blackwell Ultra
Proces produkcyjny	TSMC 4N	TSMC 4NP	TSMC 4NP
Tranzystory	80B	208B	208B
Liczba matryc na GPU	1	2	2
Gęstość NVFP4 \| rzadka wydajność	–	10 \| 20 PetaFLOPS	15 \| 20 PetaFLOPS
FP8 gęsty \| rzadka wydajność	2 \| 4 PetaFLOPS	5 \| 10 PetaFLOPS	5 \| 10 PetaFLOPS
Przyspieszenie uwagi (SFU EX2)	4, 5 terawykładników/s	5 terawykładników/s	10, 7 terawykładników/s
Maksymalna pojemność HBM	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
Maksymalna szerokość pasma HBM	3, 35 TB/s (H100) 4, 8 TB/s (H200)	8 TB/s	8 TB/s
Przepustowość NVLink	900 GB/s	1800 GB/s	1800 GB/s
Maksymalna moc (TGP)	Do 700 W	Do 1200 W	Do 1400 W

Innowacje w rdzeniach Tensor piątej generacji mają kluczowe znaczenie dla obliczeń AI. NVIDIA konsekwentnie rozwija te rdzenie, co przekłada się na:

NVIDIA Volta: Wprowadzono 8-wątkowe jednostki MMA i obsługę obliczeń FP16.
NVIDIA Ampere: Ulepszona o pełną obsługę MMA w trybie warp, BF16 i TensorFloat-32.
NVIDIA Hopper: Wprowadzono technologię Warp-group MMA obsługującą 128 wątków oraz silnik Transformer Engine ze wsparciem FP8.
NVIDIA Blackwell: wyróżniony silnik Transformer Engine drugiej generacji z ulepszonymi możliwościami obliczeniowymi FP8 i FP6.

Porównanie pamięci GPU: Hopper H100 80GB, Hopper H200 141GB, Blackwell 192GB, Blackwell Ultra 288GB.

Układ Blackwell Ultra znacząco zwiększa pojemność pamięci, zwiększając ją z maksymalnie 192 GB w modelach Blackwell GB200 do imponujących 288 GB pamięci HBM3e. Ten skok umożliwia obsługę ogromnych modeli AI o wielu bilionach parametrów. Architektura pamięci składa się z ośmiu stosów z 512-bitowym kontrolerem pracującym z prędkością 8 TB/s, co umożliwia:

Pełne dostosowanie modelu: Możliwość obsługi modeli o ponad 300 miliardach parametrów bez odciążania pamięci.
Wydłużone długości kontekstu: Zwiększona pojemność pamięci podręcznej KV dla zastosowań transformatorowych.
Poprawiona wydajność obliczeniowa: zwiększony stosunek mocy obliczeniowej do pamięci dla różnych obciążeń.

Wykres słupkowy porównujący poziomy wydajności procesorów graficznych Dense FP8 i NVFP4.

Architektura Blackwell charakteryzuje się solidnymi połączeniami, w tym NVLINK, NVLINK-C2C i interfejsem PCIe Gen6 x16, oferując następujące specyfikacje:

Przepustowość na kartę graficzną: 1, 8 TB/s dwukierunkowo (18 łączy x 100 GB/s).
Poprawa wydajności: dwukrotnie większa w porównaniu do NVLink 4 (w porównaniu do Hopper).
Maksymalna topologia: obsługuje do 576 procesorów GPU w nieblokującej strukturze obliczeniowej.
Integracja w skali rackowej: umożliwia konfiguracje składające się z 72 procesorów GPU o łącznej przepustowości 130 TB/s.

Interfejs PCIe: Gen6 z 16 liniami zapewniającymi dwukierunkową przepustowość 256 GB/s.
NVLink-C2C: Umożliwia komunikację między procesorem CPU i GPU przy spójności pamięci na poziomie 900 GB/s.

Połączyć się	Hopper GPU	Procesor graficzny Blackwell	Karta graficzna Blackwell Ultra
NVLink (GPU-GPU)	900	1800	1800
NVLink-C2C (procesor-procesor graficzny)	900	900	900
Interfejs PCIe	128 (Rdz 5)	256 (Rdz 6)	256 (Rdz 6)

Karta graficzna NVIDIA Blackwell Ultra GB300 osiąga imponujący, 50-procentowy wzrost wydajności obliczeń o niskiej precyzji (Dense Low Precision Compute) dzięki zastosowaniu nowego standardu NVFP4, oferując dokładność zbliżoną do FP8 przy minimalnych rozbieżnościach (poniżej 1%).Ten postęp zmniejsza również zapotrzebowanie na pamięć nawet 1, 8-krotnie w porównaniu z FP8 i 3, 5-krotnie w porównaniu z FP16.

Schemat mechanizmu uwagi pamięci podręcznej Blackwell KV z wykorzystaniem wsadowych wskaźników MatMul, Softmax i przyspieszenia.

Blackwell Ultra integruje również zaawansowane zarządzanie harmonogramem i funkcje bezpieczeństwa klasy korporacyjnej, w tym:

Ulepszony silnik GigaThread: zaawansowany harmonogram, który optymalizuje rozkład obciążenia, zwiększając wydajność przełączania kontekstu we wszystkich 160 SM.
Multi-Instance GPU (MIG): Możliwość partycjonowania procesorów GPU na różne instancje MIG, co pozwala na dostosowane przydzielanie pamięci w celu zapewnienia bezpiecznej obsługi wielu użytkowników.
Poufne przetwarzanie: Postanowienia dotyczące bezpiecznego przetwarzania wrażliwych modeli sztucznej inteligencji, wykorzystujące sprzętowe środowisko Trusted Execution Environment (TEE) i bezpieczne operacje NVLink bez znaczącej utraty wydajności.
Zaawansowana usługa NVIDIA Remote Attestation Service (RAS): system monitorowania oparty na sztucznej inteligencji, który zwiększa niezawodność poprzez przewidywanie awarii i optymalizację konserwacji.

Wydajność urządzenia Blackwell Ultra GB300 znacznie się poprawiła, zapewniając lepszy stosunek TPS/MW w porównaniu do GB200, co ilustrują poniższe wykresy:

Wykres wpływu architektury na wydajność wnioskowania i symulację doświadczenia użytkownika na granicy Pareto.

Wykres przedstawiający wpływ architektury sztucznej inteligencji na wydajność wnioskowania i doświadczenia użytkowników w Pareto Frontier.

Podsumowując, NVIDIA nadal jest liderem w dziedzinie technologii sztucznej inteligencji, czego przykładem są architektury Blackwell i Blackwell Ultra. Zaangażowanie firmy w udoskonalanie wsparcia i optymalizacji oprogramowania zapewnia jej silną przewagę konkurencyjną, popartą ciągłymi badaniami i rozwojem, które obiecują utrzymać ją w czołówce branży przez wiele lat.

Źródło i obrazy