
NVIDIA는 최근 Blackwell GB200 및 GB300 시스템에 대한 심층 분석을 수행했으며, 아키텍처 설계, 랙, 트레이 및 OCP(Open Compute Project)와의 통합에 초점을 맞췄습니다.
NVIDIA, Hot Chips 2025에서 Blackwell 아키텍처와 오픈 컴퓨팅 기여 공개
엔비디아는 Hot Chips 2025 행사에서 작년 첫 번째 블랙웰 서버 출시에 이어 블랙웰 울트라 플랫폼을 선보이며 향상된 컴퓨팅 솔루션에 대한 비전을 더욱 확장했습니다.기계 엔지니어 존 노튼은 엔비디아의 개방형 컴퓨팅 표준 구축 노력의 일환으로 GB200 및 GB300 시스템을 살펴보는 포괄적인 프레젠테이션을 진행했습니다.
프레젠테이션은 NVIDIA가 전년도 OCP에 기여한 MGX 아키텍처에 대한 자세한 개요로 시작되었습니다. Norton은 GB200 및 GB300 모델 개발 과정에서 직면했던 여러 어려움에 대해 설명하며, AI 및 추론을 넘어 다양한 애플리케이션에 필요한 다재다능함을 강조했습니다.

MGX 아키텍처는 전 세계적으로 다양한 워크로드에 맞춰 가속기를 확장하는 복잡성을 해결하도록 특별히 설계되었습니다.고객의 요구는 고유한 네트워킹 요구 사항부터 맞춤형 CPU 및 GPU 조합까지 다양했습니다.따라서 NVIDIA는 작은 조정이 전체 시스템에 중대한 영향을 미칠 수 있다는 점을 인지하고 시스템 개발에 반복적인 접근 방식을 적용했습니다.이러한 인식이 모듈형 MGX 아키텍처의 구축으로 이어졌습니다.
NVIDIA는 시스템을 더 작고 상호 운용 가능한 구성 요소로 분할함으로써 고객이 전체 시스템을 개편하지 않고도 개별 요소를 수정할 수 있도록 지원합니다.이러한 혁신적인 접근 방식은 초기 투자를 간소화할 뿐만 아니라 OCP(Open Platform for Computing)를 통해 유연하고 개방적인 플랫폼을 구축하여 고객 중심의 맞춤화를 촉진합니다.

Norton은 MGX 프레임워크의 두 가지 핵심 구성 요소, 즉 MGX 랙 인프라와 GB200 “Blackwell” 시스템 조립에 필수적인 MGX 컴퓨팅 및 스위치 트레이를 추가로 분석했습니다. NVIDIA는 개방형 설계 표준을 사용하여 투명성과 접근성을 확보했습니다. NVIDIA는 OCP를 통해 다운로드할 수 있는 포괄적인 모델과 사양을 제공합니다.

프레젠테이션에서 NVIDIA는 GB200 및 GB300 플랫폼의 주요 사양을 공개했습니다.랙의 설계는 상단에 스위치가 배치되고, 그 아래로 데이터 센터의 고전압 AC 전원을 시스템 전체에 공급하기 위한 DC 전원 공급 장치가 배치되는 구조입니다.

GB200 구성은 10개의 컴퓨팅 트레이에 300개의 칩을 통합하고, 9개의 스위치 트레이와 8개의 컴퓨팅 트레이를 추가로 구성합니다.놀랍게도 각 컴퓨팅 트레이는 80FP4 페타플롭의 성능을 제공하여 전체 성능 1.4엑사플롭에 기여합니다.전체 시스템의 전력 소비량은 약 120kW이며, 각 컴퓨팅 트레이는 NVLink 스파인으로 연결된 약 7kW를 사용합니다.

NVLink는 레인당 200Gb/s라는 놀라운 속도로 작동하여 GPU 트레이와 스위치 트레이 간 저지연 통신을 지원합니다.이 구리 상호 연결은 고대역폭 데이터 전송에 있어 구리의 장점을 더욱 강조합니다.

엔비디아는 랙 사양에 대한 자체적인 접근 방식도 선보였습니다.표준 엔터프라이즈 하드웨어에 사용되는 기존 44.5mm 피치보다 약간 좁은 48mm 피치에 장치를 배치함으로써, 엔비디아는 랙 내 노드 밀도를 극대화하여 다양한 운영상의 이점을 창출합니다.

약 35킬로와트를 처리할 수 있는 업그레이드된 버스바 설계도 다루어졌으며, 향상된 구리 단면적을 통해 최대 1, 400암페어를 지원하도록 확장되어 더 높은 전력 요구 사항을 충족할 수 있었습니다.

각 컴퓨팅 트레이에는 두 개의 CPU와 네 개의 GPU가 통합되어 있으며, Grace CPU 1개와 Blackwell GPU 2개를 지원하는 호스트 프로세서 모듈(HPM)이 포함되어 있습니다.혁신적인 설계는 유연한 연결 옵션을 제공하여 I/O 시스템의 원활한 통합을 보장합니다.

트레이는 다양한 냉각 솔루션과 케이블 관리 옵션에 맞게 사용자 정의가 가능한 구성을 갖추고 있어, 특정 애플리케이션에 맞게 플랫폼의 모듈성을 강조합니다.

컴퓨팅 트레이의 뒷면에는 OCP에서 표준화한 UQD(Universal Quick Disconnect)가 장착되어 있으며, 효율성 향상을 위해 완전한 액체 냉각을 지원합니다.

결론적으로, NVIDIA는 GB200과 GB300 시스템 모두 현재 전 세계 여러 하이퍼스케일 데이터센터에 본격적으로 구축되어 운영되고 있음을 확인했습니다.이 시스템들은 매년 혁신을 거듭하며 밀도, 전력 효율, 냉각 솔루션을 향상시키고 있으며, NVLink Fusion과 같은 이니셔티브는 데이터 처리 성능의 획기적인 발전을 약속합니다.
답글 남기기