Karta graficzna NVIDIA Blackwell Ultra „GB300”: prezentacja najszybszego układu AI z podwójnym retikiem, ponad 20 tys. rdzeni, 288 GB pamięci HBM3e o przepustowości 8 TB/s, o 50% szybszego niż GB200

Karta graficzna NVIDIA Blackwell Ultra „GB300”: prezentacja najszybszego układu AI z podwójnym retikiem, ponad 20 tys. rdzeni, 288 GB pamięci HBM3e o przepustowości 8 TB/s, o 50% szybszego niż GB200

Firma NVIDIA zaprezentowała swój najnowocześniejszy układ AI, Blackwell Ultra GB300, który charakteryzuje się niezwykłym wzrostem wydajności o 50% w porównaniu do swojego poprzednika, GB200, oraz imponującą pamięcią 288 GB.

Przedstawiamy Blackwell Ultra „GB300” firmy NVIDIA: rewolucyjny układ AI

Firma NVIDIA opublikowała niedawno szczegółowy artykuł opisujący specyfikację i możliwości układu Blackwell Ultra GB300. Ten najnowocześniejszy układ jest obecnie produkowany masowo i dostarczany wybranym klientom. Blackwell Ultra oferuje znaczną poprawę wydajności i funkcjonalności w porównaniu z poprzednimi modelami Blackwell.

NVIDIA Blackwell Ultra

Nawiązując do serii Super firmy NVIDIA, która stanowiła udoskonalenie oryginalnych kart do gier RTX, seria Ultra wzbogaca wcześniejsze oferty układów AI. Podczas gdy wcześniejsze linie, takie jak Hopper i Volta, nie posiadały funkcji Ultra, ich udoskonalenia położyły podwaliny pod obecne innowacje. Co więcej, znaczące ulepszenia są dostępne również dla modeli innych niż Ultra dzięki aktualizacjom oprogramowania i działaniom optymalizacyjnym.

Diagram procesora graficznego NVIDIA Blackwell Ultra przedstawiający szczegółowe specyfikacje architektury i łączności.

Blackwell Ultra GB300 to zaawansowana wersja, która łączy dwa układy scalone wielkości Reticle’a, połączone interfejsem NV-HBI o wysokiej przepustowości firmy NVIDIA, działając jako zunifikowany procesor graficzny (GPU).Zbudowany w oparciu o technologię 4NP firmy TSMC (zoptymalizowaną wersję węzła 5 nm), układ zawiera imponujące 208 miliardów tranzystorów i zapewnia niezwykłą wydajność z przepustowością 10 TB/s między dwoma układami.

Schemat architektury NVIDIA Streaming Multiprocessor z CUDA i rdzeniami Tensor.

Procesor graficzny (GPU) jest wyposażony w 160 multiprocesorów strumieniowych (SM), z których każdy zawiera łącznie 128 rdzeni CUDA. Zawiera cztery rdzenie Tensor piątej generacji, które obsługują precyzyjne obliczenia FP8, FP6 i NVFP4. Taka konstrukcja zapewnia łącznie 20 480 rdzeni CUDA i 640 rdzeni Tensor, a także 40 MB pamięci Tensor (TMEM).

Funkcja Zbiornik Blackwell Blackwell Ultra
Proces produkcyjny TSMC 4N TSMC 4NP TSMC 4NP
Tranzystory 80B 208B 208B
Liczba matryc na GPU 1 2 2
Gęstość NVFP4 | rzadka wydajność 10 | 20 PetaFLOPS 15 | 20 PetaFLOPS
FP8 gęsty | rzadka wydajność 2 | 4 PetaFLOPS 5 | 10 PetaFLOPS 5 | 10 PetaFLOPS
Przyspieszenie uwagi (SFU EX2) 4, 5 terawykładników/s 5 terawykładników/s 10, 7 terawykładników/s
Maksymalna pojemność HBM 80 GB HBM (H100) 141 GB HBM3E (H200) 192 GB HBM3E 288 GB HBM3E
Maksymalna szerokość pasma HBM 3, 35 TB/s (H100) 4, 8 TB/s (H200) 8 TB/s 8 TB/s
Przepustowość NVLink 900 GB/s 1800 GB/s 1800 GB/s
Maksymalna moc (TGP) Do 700 W Do 1200 W Do 1400 W

Innowacje w rdzeniach Tensor piątej generacji mają kluczowe znaczenie dla obliczeń AI. NVIDIA konsekwentnie rozwija te rdzenie, co przekłada się na:

  • NVIDIA Volta: Wprowadzono 8-wątkowe jednostki MMA i obsługę obliczeń FP16.
  • NVIDIA Ampere: Ulepszona o pełną obsługę MMA w trybie warp, BF16 i TensorFloat-32.
  • NVIDIA Hopper: Wprowadzono technologię Warp-group MMA obsługującą 128 wątków oraz silnik Transformer Engine ze wsparciem FP8.
  • NVIDIA Blackwell: wyróżniony silnik Transformer Engine drugiej generacji z ulepszonymi możliwościami obliczeniowymi FP8 i FP6.
Porównanie pamięci GPU: Hopper H100 80GB, Hopper H200 141GB, Blackwell 192GB, Blackwell Ultra 288GB.

Układ Blackwell Ultra znacząco zwiększa pojemność pamięci, zwiększając ją z maksymalnie 192 GB w modelach Blackwell GB200 do imponujących 288 GB pamięci HBM3e. Ten skok umożliwia obsługę ogromnych modeli AI o wielu bilionach parametrów. Architektura pamięci składa się z ośmiu stosów z 512-bitowym kontrolerem pracującym z prędkością 8 TB/s, co umożliwia:

  • Pełne dostosowanie modelu: Możliwość obsługi modeli o ponad 300 miliardach parametrów bez odciążania pamięci.
  • Wydłużone długości kontekstu: Zwiększona pojemność pamięci podręcznej KV dla zastosowań transformatorowych.
  • Poprawiona wydajność obliczeniowa: zwiększony stosunek mocy obliczeniowej do pamięci dla różnych obciążeń.
Wykres słupkowy porównujący poziomy wydajności procesorów graficznych Dense FP8 i NVFP4.

Architektura Blackwell charakteryzuje się solidnymi połączeniami, w tym NVLINK, NVLINK-C2C i interfejsem PCIe Gen6 x16, oferując następujące specyfikacje:

  • Przepustowość na kartę graficzną: 1, 8 TB/s dwukierunkowo (18 łączy x 100 GB/s).
  • Poprawa wydajności: dwukrotnie większa w porównaniu do NVLink 4 (w porównaniu do Hopper).
  • Maksymalna topologia: obsługuje do 576 procesorów GPU w nieblokującej strukturze obliczeniowej.
  • Integracja w skali rackowej: umożliwia konfiguracje składające się z 72 procesorów GPU o łącznej przepustowości 130 TB/s.
  • Interfejs PCIe: Gen6 z 16 liniami zapewniającymi dwukierunkową przepustowość 256 GB/s.
  • NVLink-C2C: Umożliwia komunikację między procesorem CPU i GPU przy spójności pamięci na poziomie 900 GB/s.
Połączyć się Hopper GPU Procesor graficzny Blackwell Karta graficzna Blackwell Ultra
NVLink (GPU-GPU) 900 1800 1800
NVLink-C2C (procesor-procesor graficzny) 900 900 900
Interfejs PCIe 128 (Rdz 5) 256 (Rdz 6) 256 (Rdz 6)

Karta graficzna NVIDIA Blackwell Ultra GB300 osiąga imponujący, 50-procentowy wzrost wydajności obliczeń o niskiej precyzji (Dense Low Precision Compute) dzięki zastosowaniu nowego standardu NVFP4, oferując dokładność zbliżoną do FP8 przy minimalnych rozbieżnościach (poniżej 1%).Ten postęp zmniejsza również zapotrzebowanie na pamięć nawet 1, 8-krotnie w porównaniu z FP8 i 3, 5-krotnie w porównaniu z FP16.

Schemat mechanizmu uwagi pamięci podręcznej Blackwell KV z wykorzystaniem wsadowych wskaźników MatMul, Softmax i przyspieszenia.

Blackwell Ultra integruje również zaawansowane zarządzanie harmonogramem i funkcje bezpieczeństwa klasy korporacyjnej, w tym:

  • Ulepszony silnik GigaThread: zaawansowany harmonogram, który optymalizuje rozkład obciążenia, zwiększając wydajność przełączania kontekstu we wszystkich 160 SM.
  • Multi-Instance GPU (MIG): Możliwość partycjonowania procesorów GPU na różne instancje MIG, co pozwala na dostosowane przydzielanie pamięci w celu zapewnienia bezpiecznej obsługi wielu użytkowników.
  • Poufne przetwarzanie: Postanowienia dotyczące bezpiecznego przetwarzania wrażliwych modeli sztucznej inteligencji, wykorzystujące sprzętowe środowisko Trusted Execution Environment (TEE) i bezpieczne operacje NVLink bez znaczącej utraty wydajności.
  • Zaawansowana usługa NVIDIA Remote Attestation Service (RAS): system monitorowania oparty na sztucznej inteligencji, który zwiększa niezawodność poprzez przewidywanie awarii i optymalizację konserwacji.

Wydajność urządzenia Blackwell Ultra GB300 znacznie się poprawiła, zapewniając lepszy stosunek TPS/MW w porównaniu do GB200, co ilustrują poniższe wykresy:

Wykres wpływu architektury na wydajność wnioskowania i symulację doświadczenia użytkownika na granicy Pareto.Wykres przedstawiający wpływ architektury sztucznej inteligencji na wydajność wnioskowania i doświadczenia użytkowników w Pareto Frontier.Wykres porównujący wydajność sztucznej inteligencji: przepustowość w porównaniu z szybkością reakcji, podkreślający wpływ architektury.Wykres porównujący wydajność wnioskowania sztucznej inteligencji według architektury na granicy Pareto.

Podsumowując, NVIDIA nadal jest liderem w dziedzinie technologii sztucznej inteligencji, czego przykładem są architektury Blackwell i Blackwell Ultra. Zaangażowanie firmy w udoskonalanie wsparcia i optymalizacji oprogramowania zapewnia jej silną przewagę konkurencyjną, popartą ciągłymi badaniami i rozwojem, które obiecują utrzymać ją w czołówce branży przez wiele lat.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *