NVIDIA GB300 “Blackwell Ultra” GPU를 탑재한 Microsoft Azure의 Ultra 업그레이드: 1조 개 이상의 매개변수를 사용하는 AI 모델을 구동하는 4600개 GPU

NVIDIA GB300 “Blackwell Ultra” GPU를 탑재한 Microsoft Azure의 Ultra 업그레이드: 1조 개 이상의 매개변수를 사용하는 AI 모델을 구동하는 4600개 GPU

Microsoft는 자사 Azure 플랫폼과 관련하여 중요한 발표를 했습니다. NVIDIA의 최첨단 GB300 “Blackwell Ultra” GPU를 통합한 최초의 대규모 프로덕션 클러스터를 공개했습니다.이 첨단 기술은 초대형 AI 모델을 처리하도록 특별히 설계되었습니다.

NVIDIA GB300 “Blackwell Ultra”: Microsoft Azure 플랫폼에서 AI 학습 향상

Azure 프레임워크가 Blackwell Ultra를 포함하도록 업그레이드되었으며, NVIDIA의 고급 GB300 NVL72 아키텍처를 기반으로 4, 600개 이상의 GPU를 강력하게 배포합니다.이 설정은 최첨단 InfiniBand 상호 연결 기술을 활용하여 Microsoft가 전 세계 데이터 센터에 AI 워크로드 전용으로 수십만 개의 Blackwell Ultra GPU를 배포할 수 있는 역량을 크게 향상시킵니다.

Microsoft에 따르면 NVIDIA GB300 NVL72 “Blackwell Ultra” GPU가 장착된 Azure 클러스터를 구축하면 모델 학습 시간을 몇 개월에서 단 몇 주로 획기적으로 단축할 수 있습니다.이러한 발전을 통해 수백조 개의 매개변수로 구성된 모델의 학습이 가능해졌습니다. NVIDIA는 또한 수많은 MLPerf 벤치마크와 최근 InferenceMAX AI 테스트를 통해 입증된 바와 같이 추론 지표에서도 탁월한 성능을 입증했습니다.

새롭게 출시된 Azure ND GB300 v6 가상 머신(VM)은 추론 모델, 에이전트 AI 시스템, 멀티모달 생성 AI 작업을 포함한 다양한 고급 애플리케이션에 최적화되어 있습니다.이 인프라의 각 랙은 18개의 VM을 수용하며, 각 VM에는 72개의 GPU가 장착되어 있습니다.다음 사양은 성능 기능을 강조합니다.

  • 36개의 NVIDIA Grace CPU와 결합된 72개의 NVIDIA Blackwell Ultra GPU.
  • 최첨단 NVIDIA Quantum-X800 InfiniBand를 통해 초당 800기가비트(Gbps)의 크로스 랙 스케일아웃 대역폭을 제공합니다.
  • 랙당 NVIDIA NVLink 대역폭은 초당 130테라바이트(TB)입니다.
  • 37TB의 고속 메모리.
  • 최대 1, 440페타플롭스(PFLOPS)의 FP4 텐서 코어 성능.
Microsoft Azure, NVIDIA GB300으로 더욱 강력하게 업그레이드

랙 수준에서 NVLink와 NVSwitch는 메모리 할당 및 대역폭을 개선하여 37TB의 고속 메모리를 연결하면서 초당 130TB의 놀라운 속도로 랙 내부 데이터를 전송할 수 있습니다.이러한 아키텍처 혁신은 각 랙을 통합된 장치로 전환하여 더 큰 모델과 확장된 컨텍스트 윈도우에 대한 추론 처리량 증가와 지연 시간 단축을 제공합니다.이러한 향상된 기능은 에이전트 기반 및 멀티모달 AI 시스템을 지원하여 이전보다 훨씬 민첩하고 확장성이 뛰어납니다.

Azure는 개별 랙을 넘어 기능을 확장하기 위해 NVIDIA Quantum-X 800Gbps InfiniBand를 기반으로 하는 고성능 팻 트리 네트워크 아키텍처를 채택합니다.이 설계는 통신 오버헤드를 최소화하면서 수만 개의 GPU로 구성된 초대형 모델 학습을 위한 효율적인 확장을 보장합니다.동기화 오버헤드 감소는 최적의 GPU 활용도를 더욱 높여 AI 학습과 관련된 높은 연산량에도 불구하고 연구 주기를 단축하고 비용 효율성을 높일 수 있도록 합니다.맞춤형 프로토콜과 네트워크 내 컴퓨팅 기능을 포함하는 Azure의 특수 설계된 스택은 높은 안정성과 효과적인 리소스 활용을 보장합니다. NVIDIA SHARP와 같은 기술은 온스위치(on-switch) 연산을 통해 집합 연산 속도를 향상시키고 유효 대역폭을 두 배로 늘려 대규모 학습 및 추론의 효율성을 높입니다.

또한 Azure의 혁신적인 냉각 기술은 독립형 열 교환 장치와 고급 시설 냉각 시스템을 통합하여 GB300 NVL72와 같은 고밀도 고성능 클러스터 내에서 열 안정성을 보장하는 동시에 물 소비를 줄이는 것을 목표로 합니다.전력 분배 모델의 지속적인 개발 및 적용은 ND GB300 v6 VM 클래스 GPU 클러스터에 내재된 높은 에너지 요구 사항과 동적 부하 분산 요구 사항을 지원합니다.

Microsoft를 통해

NVIDIA 가 강조했듯이, Microsoft Azure와 NVIDIA의 이번 협력은 미국이 AI 부문에서 주도적인 위치를 차지하는 데 있어 중요한 전환점을 의미합니다.이제 고객은 이러한 획기적인 Azure VM을 프로젝트에 활용하고 활용할 수 있습니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다