NVIDIA Blackwell Ultra “GB300” GPU: 듀얼 레티클, 20,000개 이상의 코어, 8TB/s의 288GB HBM3e 메모리, GB200보다 50% 빠른 최고 속도의 AI 칩 공개

NVIDIA는 최첨단 AI 칩인 Blackwell Ultra GB300을 공개했습니다.이 칩은 이전 모델인 GB200에 비해 성능이 50% 향상되었고, 인상적인 288GB 메모리를 자랑합니다.

NVIDIA의 Blackwell Ultra “GB300” 소개: 혁신적인 AI 칩

최근 NVIDIA는 Blackwell Ultra GB300의 사양과 성능을 자세히 설명하는 기사를 발표했습니다.이 최첨단 칩은 현재 양산 중이며, 일부 고객에게 공급되고 있습니다. Blackwell Ultra는 이전 Blackwell 모델에 비해 성능과 기능 면에서 크게 향상되었습니다.

기존 RTX 게이밍 카드를 개선한 NVIDIA의 Super 시리즈와 유사한 Ultra 시리즈는 기존 AI 칩 제품군을 더욱 강화합니다. Hopper와 Volta 같은 초기 라인에는 Ultra 기능이 부족했지만, 이러한 발전은 현재 혁신의 토대를 마련했습니다.또한, Ultra가 아닌 모델도 소프트웨어 업데이트 및 최적화를 통해 상당한 개선이 이루어졌습니다.

자세한 아키텍처와 연결 사양을 보여주는 NVIDIA Blackwell Ultra GPU 다이어그램입니다.

Blackwell Ultra GB300은 NVIDIA의 고대역폭 NV-HBI 인터페이스로 연결된 두 개의 레티클 크기 다이를 결합하여 통합 GPU로 작동하는 고급 버전입니다. TSMC의 4NP 공정 기술(5nm 노드의 최적화 버전)을 기반으로 제작된 이 칩은 2, 080억 개의 트랜지스터를 내장하고 있으며, 두 다이 간 10TB/s의 대역폭으로 탁월한 성능을 제공합니다.

CUDA와 텐서 코어를 탑재한 NVIDIA 스트리밍 멀티프로세서 아키텍처의 다이어그램입니다.

GPU는 각각 총 128개의 CUDA 코어를 갖춘 160개의 스트리밍 멀티프로세서(SM)를 탑재하고 있습니다. FP8, FP6, NVFP4 정밀 컴퓨팅을 지원하는 4개의 5세대 텐서 코어가 포함되어 있습니다.이러한 설계를 통해 총 20, 480개의 CUDA 코어와 640개의 텐서 코어, 그리고 40MB의 텐서 메모리(TMEM)가 제공됩니다.

특징	홉 따는 기계	블랙웰	블랙웰 울트라
제조 공정	TSMC 4N	TSMC 4NP	TSMC 4NP
트랜지스터	80비	208B	208B
GPU당 다이	1	2	2
NVFP4 고밀도 \| 희소 성능	–	10 \| 20 페타플롭스	15 \| 20 페타플롭스
FP8 고밀도 \| 희소 성능	2 \| 4 페타플롭스	5 \| 10 페타플롭스	5 \| 10 페타플롭스
주의 가속(SFU EX2)	4.5 테라지수/초	5 테라지수/초	10.7 테라지수/초
최대 HBM 용량	80GB HBM(H100) 141GB HBM3E(H200)	192GB HBM3E	288GB HBM3E
최대 HBM 대역폭	3.35TB/초(H100) 4.8TB/초(H200)	8TB/초	8TB/초
NVLink 대역폭	900GB/초	1, 800GB/초	1, 800GB/초
최대 전력(TGP)	최대 700W	최대 1, 200W	최대 1, 400W

5세대 텐서 코어의 혁신은 AI 연산에 매우 중요합니다. NVIDIA는 이러한 코어를 지속적으로 발전시켜 다음과 같은 성과를 달성했습니다.

NVIDIA Volta: 8스레드 MMA 유닛과 FP16 계산 지원이 도입되었습니다.
NVIDIA Ampere: 풀 워프 전역 MMA, BF16 및 TensorFloat-32로 강화되었습니다.
NVIDIA Hopper: 128개 스레드에 걸친 Warp 그룹 MMA와 FP8을 지원하는 Transformer Engine을 도입했습니다.
NVIDIA Blackwell: 향상된 FP8 및 FP6 컴퓨팅 기능을 갖춘 2세대 트랜스포머 엔진이 탑재되었습니다.

GPU 메모리 비교: Hopper H100 80GB, Hopper H200 141GB, Blackwell 192GB, Blackwell Ultra 288GB.

Blackwell Ultra 칩은 메모리 용량을 대폭 향상시켜 Blackwell GB200 모델의 최대 192GB에서 HBM3e의 288GB로 대폭 확장했습니다.이러한 성능 향상을 통해 수조 개의 매개변수로 구성된 방대한 AI 모델을 지원할 수 있습니다.이 칩의 메모리 아키텍처는 8TB/s로 작동하는 512비트 컨트롤러를 갖춘 8개의 스택으로 구성되어 다음과 같은 기능을 제공합니다.

완벽한 모델 수용: 메모리를 오프로드하지 않고도 3000억 개 이상의 매개변수 모델을 처리할 수 있는 기능.
확장된 컨텍스트 길이: 변압기 애플리케이션을 위한 향상된 KV 캐시 용량.
향상된 컴퓨팅 효율성: 다양한 워크로드에 대한 컴퓨팅 대 메모리 비율이 높아졌습니다.

Dense FP8과 NVFP4 GPU 성능 수준을 비교한 막대형 차트입니다.

Blackwell 아키텍처는 NVLINK, NVLINK-C2C, PCIe Gen6 x16 인터페이스를 포함한 강력한 상호 연결을 갖추고 있으며 다음과 같은 사양을 제공합니다.

GPU당 대역폭: 양방향 1.8TB/s(18개 링크 x 100GB/s).
성능 향상: NVLink 4보다 2배 증가(Hopper와 비교).
최대 토폴로지: 비차단 컴퓨팅 패브릭에서 최대 576개의 GPU를 지원합니다.
랙 규모 통합: 130TB/s의 총 대역폭으로 72개 GPU 구성이 가능합니다.

PCIe 인터페이스: 16개 레인을 갖춘 Gen6, 양방향 처리량 256GB/s 제공.
NVLink-C2C: 900GB/s의 메모리 일관성을 통해 CPU와 GPU 간의 통신을 원활하게 합니다.

상호 연결	호퍼 GPU	블랙웰 GPU	블랙웰 울트라 GPU
NVLink(GPU-GPU)	900	1, 800	1, 800
NVLink-C2C(CPU-GPU)	900	900	900
PCIe 인터페이스	128 (창세기 5장)	256 (창세기 6장)	256 (창세기 6장)

NVIDIA의 Blackwell Ultra GB300은 새로운 NVFP4 표준을 채택하여 Dense Low Precision Compute 출력을 50%나 향상시켜, FP8에 가까운 정확도와 최소한의 오차(1% 미만)를 제공합니다.또한 이러한 기술 발전으로 메모리 요구량도 FP8 대비 최대 1.8배, FP16 대비 최대 3.5배 감소했습니다.

일괄 처리된 MatMul, Softmax 및 속도 향상 지표를 사용한 Blackwell KV 캐시 어텐션 메커니즘의 다이어그램입니다.

Blackwell Ultra는 다음을 포함한 엔터프라이즈급 보안 기능과 함께 정교한 일정 관리 기능을 통합합니다.

향상된 GigaThread 엔진: 작업 부하 분산을 최적화하고 160개 SM 전체의 컨텍스트 전환 성능을 향상시키는 고급 스케줄러입니다.
멀티 인스턴스 GPU(MIG): GPU를 다양한 MIG 인스턴스로 분할하여 안전한 멀티 테넌시에 맞춤형 메모리 할당을 허용하는 기능입니다.
기밀 컴퓨팅: 하드웨어 기반 신뢰 실행 환경(TEE)과 심각한 성능 손실 없이 안전한 NVLink 작업을 활용하여 민감한 AI 모델을 안전하게 처리하기 위한 조항입니다.
고급 NVIDIA 원격 검증 서비스(RAS): 장애를 예측하고 유지 관리를 최적화하여 안정성을 강화하는 AI 기반 모니터링 시스템입니다.

다음 차트에서 볼 수 있듯이 Blackwell Ultra GB300은 GB200에 비해 뛰어난 TPS/MW를 제공하여 성능 효율성이 크게 향상되었습니다.

추론 성능과 파레토 프론티어 사용자 경험 시뮬레이션에 대한 아키텍처 영향 그래프입니다.

파레토 프론티어에서 AI 아키텍처가 추론 성능과 사용자 경험에 미치는 영향을 나타낸 차트입니다.

요약하자면, NVIDIA는 Blackwell 및 Blackwell Ultra 아키텍처를 통해 AI 기술을 지속적으로 선도하고 있습니다.소프트웨어 지원 및 최적화 향상에 대한 NVIDIA의 헌신은 강력한 경쟁 우위를 보장하며, 지속적인 연구 개발을 통해 앞으로도 업계 선두 자리를 굳건히 지켜나갈 것입니다.

출처 및 이미지