Aktualizacja platformy Microsoft Azure do wersji Ultra obejmuje procesory graficzne NVIDIA GB300 „Blackwell Ultra”: 4600 procesorów graficznych obsługujących modele AI z ponad bilionem parametrów

Aktualizacja platformy Microsoft Azure do wersji Ultra obejmuje procesory graficzne NVIDIA GB300 „Blackwell Ultra”: 4600 procesorów graficznych obsługujących modele AI z ponad bilionem parametrów

Firma Microsoft ogłosiła ważną nowość dotyczącą platformy Azure, prezentując swój pierwszy klaster produkcyjny na dużą skalę, który integruje najnowocześniejsze procesory graficzne GB300 „Blackwell Ultra” firmy NVIDIA. Ten postęp został zaprojektowany specjalnie do obsługi niezwykle dużych modeli AI.

NVIDIA GB300 „Blackwell Ultra”: udoskonalanie szkolenia sztucznej inteligencji na platformie Azure firmy Microsoft

Platforma Azure została zaktualizowana o platformę Blackwell Ultra, oferującą solidne wdrożenie ponad 4600 procesorów graficznych opartych na zaawansowanej architekturze GB300 NVL72 firmy NVIDIA. Ta konfiguracja wykorzystuje najnowocześniejszą technologię połączeń InfiniBand, co znacznie zwiększa możliwości firmy Microsoft w zakresie wdrażania setek tysięcy procesorów graficznych Blackwell Ultra w globalnych centrach danych, z których wszystkie są dedykowane do zadań związanych ze sztuczną inteligencją.

Według Microsoftu, wdrożenie klastra Azure wyposażonego w procesory graficzne NVIDIA GB300 NVL72 „Blackwell Ultra” może radykalnie skrócić czas trenowania modeli z kilku miesięcy do zaledwie tygodni. Ten postęp umożliwia trenowanie modeli składających się z setek bilionów parametrów. NVIDIA wykazała również wiodącą wydajność w zakresie metryk wnioskowania, o czym świadczą liczne testy MLPerf i ostatnie testy AI InferenceMAX.

Nowo wprowadzone maszyny wirtualne (VM) Azure ND GB300 v6 są zoptymalizowane pod kątem różnorodnych zaawansowanych aplikacji, w tym modeli wnioskowania, agentowych systemów AI i multimodalnych zadań generatywnej AI. Każdy rack w tej infrastrukturze mieści 18 maszyn wirtualnych, z których każda jest wyposażona w 72 procesory GPU. Poniższe specyfikacje podkreślają możliwości wydajnościowe:

  • 72 procesory graficzne NVIDIA Blackwell Ultra połączone z 36 procesorami NVIDIA Grace.
  • Przepustowość między rackami wynosząca 800 gigabitów na sekundę (Gbps) dzięki najnowocześniejszej karcie NVIDIA Quantum-X800 InfiniBand.
  • 130 terabajtów (TB) na sekundę przepustowości NVIDIA NVLink na szafę.
  • 37 TB szybkiej pamięci.
  • Do 1440 petaflopsów (PFLOPS) wydajności FP4 Tensor Core.
Microsoft Azure otrzymuje ultranowoczesną aktualizację dzięki układowi GB300 firmy NVIDIA

Na poziomie szafy serwerowej, NVLink i NVSwitch usprawniają alokację pamięci i przepustowość, umożliwiając imponującą prędkość transferu danych wewnątrz szafy (intra-rack) wynoszącą 130 TB na sekundę, przy jednoczesnym podłączeniu 37 TB szybkiej pamięci. Ta innowacja architektoniczna przekształca każdą szafę serwerową w zintegrowaną jednostkę, zapewniając większą przepustowość wnioskowania i mniejsze opóźnienia w przypadku większych modeli i rozszerzonych okien kontekstowych. To udoskonalenie obsługuje agentowe i multimodalne systemy AI, czyniąc je bardziej elastycznymi i skalowalnymi niż kiedykolwiek wcześniej.

Aby rozszerzyć możliwości poza pojedyncze szafy, platforma Azure wykorzystuje wysokowydajną architekturę sieciową typu „fat tree”, wspieraną przez kartę NVIDIA Quantum-X800 Gb/s InfiniBand. Taka konstrukcja zapewnia efektywne skalowanie w celu trenowania bardzo dużych modeli do dziesiątek tysięcy procesorów GPU, minimalizując jednocześnie obciążenie komunikacyjne. Redukcja obciążenia związanego z synchronizacją dodatkowo optymalizuje wykorzystanie procesorów GPU, co pozwala na skrócenie cykli badawczych i obniżenie kosztów, pomimo intensywnych wymagań obliczeniowych związanych z trenowaniem sztucznej inteligencji. Specjalnie opracowany stos Azure, obejmujący niestandardowe protokoły i funkcje przetwarzania w sieci, gwarantuje wysoką niezawodność i efektywne wykorzystanie zasobów. Technologie takie jak NVIDIA SHARP zwiększają zbiorczą prędkość operacji i podwajają efektywną przepustowość dzięki obliczeniom wykonywanym na przełącznikach, umożliwiając tym samym wydajniejsze trenowanie i wnioskowanie na dużą skalę.

Co więcej, innowacyjne techniki chłodzenia Azure obejmują autonomiczne jednostki wymiany ciepła i zaawansowane systemy chłodzenia obiektów, mające na celu zmniejszenie zużycia wody przy jednoczesnym zapewnieniu stabilności termicznej w tych gęstych, wysokowydajnych klastrach, takich jak GB300 NVL72. Ciągły rozwój i adaptacja modeli dystrybucji zasilania również zaspokajają wysokie zapotrzebowanie na energię i dynamiczne równoważenie obciążeń, charakterystyczne dla klastrów GPU klasy ND GB300 v6 VM.

za pośrednictwem Microsoftu

Jak podkreśla firma NVIDIA, współpraca między Microsoft Azure a firmą NVIDIA stanowi przełomowy moment dla pozycji Stanów Zjednoczonych jako lidera w sektorze sztucznej inteligencji. Klienci mogą teraz uzyskać dostęp do tych przełomowych maszyn wirtualnych Azure i wykorzystać je w swoich projektach.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *