차세대 HBM 아키텍처에 대한 포괄적인 개요: 최대 64TB/s 대역폭, 24-Hi 스택당 240GB 용량, 내장형 냉각 기능을 갖춘 HBM4~HBM8

고대역폭 메모리(HBM) 표준은 HBM4에서 HBM8까지 놀라운 발전을 이루었으며, 인공지능(AI)과 데이터 센터 성능에 대한 증가하는 수요를 충족하는 데 필요한 혁신을 주도했습니다.

HBM 표준 확장, AI 및 데이터 센터 수요 충족을 목표로

한국과학기술원(KAIST) 과 테라(Tera, 테라바이트 상호연결 및 패키지 연구실) 의 최근 발표는 HBM 기술의 야심찬 로드맵을 조명했습니다. HBM4, HBM5, HBM6, HBM7, HBM8과 같은 기술을 통해 상당한 발전이 예상되며, 최대 64TB/s에 달하는 대역폭을 제공할 것으로 기대됩니다.

HBM4를 시작으로 이 표준은 2026년 출시 예정인 AI GPU 이니셔티브와 데이터 센터 기술을 지원할 준비가 되어 있습니다. AMD와 NVIDIA 등 유명 업체가 MI400 및 Rubin 시리즈와 같은 제품에 HBM을 통합했다는 사실은 HBM의 중요성을 보여줍니다.

관련 연구 기관들이 자세히 설명한 NVIDIA의 향후 GPU 로드맵은 특히 Tera가 상호 연결 및 HBM 패키징 분야에서 전문성을 갖추고 있다는 점을 고려할 때 중요한 통찰력을 제공합니다. HBM4 메모리는 NVIDIA의 Rubin과 AMD의 MI500 GPU에 맞춰 전략적으로 설계되었습니다.

NVIDIA의 Rubin과 AMD의 MI500 GPU: HBM4 자세히 살펴보기

엔비디아의 루빈 시리즈는 HBM4 및 HBM4e 기술을 활용할 예정이며, 루빈은 8개의 HBM4 사이트를, 루빈 울트라는 16개의 사이트를 탑재했습니다.각 모델은 서로 다른 다이 단면을 사용하며, 울트라는 두 배 높은 컴퓨팅 밀도를 제공합니다.

분석에 따르면 Rubin GPU는 728mm²의 다이 면적을 자랑하며, 약 800W의 전력을 소모합니다.인터포저는 2, 194mm²의 면적에 288GB에서 384GB의 메모리 용량을 지원하여 16TB/s에서 32TB/s에 이르는 뛰어난 대역폭을 제공하며, 총 전력 소모량은 약 2, 200W로, 기존 Blackwell B200 GPU의 거의 두 배에 달합니다.

HBM4 표준의 주요 특징

데이터 전송 속도: 약 8Gbps
IO 개수: 2048(최대 4096)
총 대역폭: 2.0TB/s
주사위 스택: 12/16-Hi
다이당 용량: 24Gb
HBM당 용량: 최대 36/48GB
HBM 패키지당 전력: 75W
포장 방식: 마이크로범프(MR-MUF)
냉각 방식: Direct-To-Chip(D2C) 액체 냉각
맞춤형 HBM 베이스 다이 아키텍처
베이스 다이에 NMC 프로세서 + LPDDR 탑재
지원 플랫폼: NVIDIA Rubin 및 Instinct MI400

AMD는 Instinct MI400으로 기준을 한 단계 끌어올렸습니다.432GB의 HBM4를 탑재하고 대역폭 용량은 19.6TB/s에 달합니다.이는 NVIDIA의 제품보다 눈에 띄게 향상된 성과입니다.

HBM4의 사양을 살펴보면, 이 기술은 8Gbps 데이터 전송 속도, 2048비트 I/O, 스택당 2.0TB/s 대역폭, 그리고 최대 48GB의 메모리 용량을 제공할 것으로 예상됩니다.스택당 75W의 전력 패키지로 설계되었으며, 최적의 성능을 위해 수냉 방식을 사용합니다.

HBM5, HBM6, HBM7 및 HBM8의 발전

HBM5는 2029년경 출시를 목표로 하고 있으며, IO 레인을 4096개로 확장하면서도 8Gbps의 데이터 전송 속도를 유지할 것으로 예상됩니다.총 대역폭이 4TB/s로 추산되는 이 표준은 16-Hi 스택을 활용하여 최대 80GB의 용량을 제공할 것입니다.

HBM5 표준의 주요 기능

데이터 속도: 8Gbps
IO 수: 4096
총 대역폭: 4.0TB/s
주사위 스택: 16-Hi
다이당 용량: 40Gb
HBM당 용량: 80GB
HBM 패키지당 전력: 100W
포장 방식: 마이크로범프(MR-MUF)
냉각 방식: 침지 냉각, 열 비아(TTV)
특징: 3D NMC-HBM 및 스택 캐시를 갖춘 맞춤형 HBM 베이스 다이

엔비디아의 파인만은 HBM5를 사용하는 최초의 GPU로 예상되며, 적절한 생산 준비가 가능해지면 공식 출시 가격은 2029년으로 책정될 예정입니다.

파인만 GPU는 750mm² 다이와 900W의 전력 소모량을 특징으로 할 것으로 알려졌으며, 400~500GB의 HBM5 메모리를 탑재한 4개의 GPU를 패키징하여 총 4400W의 열 설계 전력(TDP)을 달성할 것으로 예상됩니다.

HBM6 및 그 이상을 통한 차세대 혁신

HBM5에 이어, 파인만 아키텍처 다음으로 출시될 것으로 예상되는 HBM6가 다음 도약을 예고합니다.이 버전은 4096비트 IO 레인과 함께 16Gbps의 데이터 전송 속도를 크게 향상시켜 대역폭과 메모리 용량의 획기적인 발전을 가져올 것으로 예상됩니다.

HBM6 표준의 주요 기능

데이터 속도: 16Gbps
IO 수: 4096
총 대역폭: 8.0TB/s
다이 스택: 최대 20-Hi
다이당 용량: 48Gb
HBM당 용량: 96/120GB
HBM 패키지당 전력: 120W
패키징 방식: 범프리스 Cu-Cu 직접 접합
냉각 방식: 침지 냉각
고급 기능: 맞춤형 멀티 타워 HBM 아키텍처

HBM6를 사용하면 대역폭과 전력 효율성이 모두 향상되어 최대 6014mm²의 GPU 패키징이 가능해져 엄청난 메모리 대역폭과 용량을 제공할 수 있을 것으로 기대됩니다.

HBM7 및 HBM8: 고대역폭 메모리의 미래

더 나아가 HBM7과 HBM8은 메모리 기술을 재정의할 것으로 예상됩니다. HBM7은 24Gbps의 데이터 전송 속도와 8, 192개의 I/O를 자랑하며, 대역폭 용량을 24TB/s로 획기적으로 향상시킬 수 있습니다.

HBM7 표준의 주요 기능

데이터 속도: 24Gbps
IO 수: 8192
총 대역폭: 24.0TB/s
주사위 스택: 20/24-Hi
다이당 용량: 64Gb
HBM당 용량: 160/192GB
HBM 패키지당 전력: 160W
패키징 방식: 범프리스 Cu-Cu 직접 접합
냉각 방식: 내장형 냉각
아키텍처: 버퍼 다이를 사용한 하이브리드 HBM 아키텍처

마지막으로, HBM8은 현재의 이해를 뛰어넘는 표준을 제시하며, 2038년경 출시 예정인 향상된 용량으로 최대 32Gbps의 데이터 전송 속도를 약속합니다.앞으로 HBM7과 HBM8 표준은 전례 없는 컴퓨팅 성능의 시대를 열 것으로 예상됩니다.

혁신적인 냉각 솔루션과 HBM 아키텍처의 만남

고대역폭 플래시(HBF) 아키텍처와 같은 새로운 아키텍처는 대용량 언어 모델 생성과 같은 메모리 집약적인 애플리케이션을 최적화하는 것을 목표로 합니다.이러한 혁신은 고급 NAND 구성 및 상호 연결 전략을 활용하여 HBM 스택과의 원활한 통합을 통해 향상된 성능을 제공합니다.

데이터 집약적인 애플리케이션이 주도하는 시대로 전환함에 따라, 혁신적인 아키텍처와 특수 냉각 솔루션의 정교한 상호 작용은 차세대 컴퓨팅에 필요한 기반을 제공할 것입니다. HBM의 미래는 밝은 전망이며, 상당한 발전이 눈앞에 다가오고 있습니다.앞으로 몇 년 동안 메모리 기술의 진화를 엿볼 수 있는 흥미로운 기회가 될 것입니다.

출처 및 이미지