
AMD는 Hot Chips 2025에서 혁신적인 CDNA 4 아키텍처 기반의 최신 Instinct MI350 AI 가속기에 대한 자세한 정보를 공개했습니다.이는 까다로운 AI 워크로드를 위해 특별히 설계된 MI350 시리즈가 처음 출시된 지 불과 두 달 만에 나온 발표입니다.
AMD, Hot Chips 2025에서 Instinct MI350 아키텍처 통찰력 공개, 확장형 LLM 시장 공략

MI350 시리즈는 대규모 언어 모델(LLM)의 기하급수적인 증가에 대응하여 데이터 형식과 칩 메모리 용량 모두의 발전 필요성을 부각시켰습니다. AMD는 이러한 영역의 경계를 확장함으로써 AI 처리 성능과 효율성을 크게 향상시켰습니다.

CDNA-4 아키텍처의 향상된 기능은 고대역폭 메모리(HBM)의 용량과 대역폭을 크게 향상시켜 더욱 광범위한 모델에서 AI 학습 및 추론을 더욱 빠르게 수행할 수 있도록 지원합니다.이 칩들은 링크 속도를 획기적으로 향상시켜 전력 효율과 전반적인 성능을 향상시켰습니다.

이 새로운 아키텍처는 전력 공급을 최적화하고 Infinity Fabric을 통해 연결성을 향상시켜 운영 중 대역폭 효율성을 높여 처리 속도를 높입니다.또한 FP8 및 업계 표준 마이크로 스케일 MXFP6 및 MXFP4 유형과 같은 다양한 저정밀도 데이터 형식을 지원합니다.
MI350 시리즈 변형 및 사양
AMD MI350 시리즈는 주로 공랭식 설계로 총 보드 전력(TBP)이 1, 000W이고 최대 클럭 속도가 2.2GHz인 MI350X로 구성됩니다.상위 모델인 MI355X는 수랭식 데이터센터에 최적화되어 1, 400W의 TBP와 최대 클럭 속도가 2.4GHz입니다.

이러한 인상적인 사양은 AMD의 광범위한 엔지니어링 전문성에서 비롯되었으며, 3D 멀티칩릿 구성 내에 1, 850억 개의 트랜지스터를 집적한 정교한 설계를 특징으로 합니다.여기에는 고급 HBM3e 메모리가 포함되며, 3nm 및 6nm 공정 기술을 모두 활용하여 비용 효율성과 성능을 최적화합니다.

아키텍처 분석 및 기능
아키텍처 세부 정보를 보면 MI350 패키지당 총 8개의 가속기 복합 다이(XCD)가 사용되었으며, TSMC의 최첨단 3nm 기술을 사용하여 제작되었습니다.각 칩은 최대 처리량을 위해 설계된 견고한 인프라를 통해 연결됩니다.
각 I/O 베이스 다이는 더욱 발전된 6nm 공정으로 작동하여 향상된 수율과 비용 효율성을 보장합니다.이 다이 구성은 8개의 HBM3e 사이트를 통해 효과적인 메모리 처리를 가능하게 하여 가속기 전체에 걸쳐 288GB의 대용량 메모리를 제공합니다.

또한, 메모리 서브시스템은 컴퓨팅 성능을 효율적으로 향상시키기 위한 다양한 구성을 지원합니다.여기에는 데이터 집약적인 작업에서 성능을 극대화하도록 설계된 포괄적인 내부 메모리 아키텍처와 캐시 계층화가 포함됩니다.
성과 지표 및 경쟁 우위
원시 연산 능력 측면에서 MI350 시리즈는 이전 제품과 비교했을 때 상당한 개선을 이루었으며, 최대 20 PFLOP의 FP4/FP6 연산 기능을 선보입니다. HBM3e 기술의 발전과 관련 캐시 개선 덕분에 인상적인 4배의 성능 향상입니다.

AMD는 Instinct MI350 시리즈가 2025년 3분기부터 여러 유통 파트너를 통해 출시될 것이라고 밝혔습니다.향후 개발도 예정되어 있으며, MI400 시리즈는 2026년에 출시될 예정입니다.
AMD Instinct AI 가속기 비교:
가속기 이름 | AMD 인스팅트 MI500 | AMD 인스팅트 MI400 | AMD 인스팅트 MI350X | AMD 인스팅트 MI325X | AMD 인스팅트 MI300X | AMD 인스팅트 MI250X |
---|---|---|---|---|---|---|
GPU 아키텍처 | CDNA Next / UDNA | CDNA Next / UDNA | 씨디엔에이 4 | 아쿠아 반자람(CDNA 3) | 아쿠아 반자람(CDNA 3) | 알데바란(CDNA 2) |
GPU 프로세스 노드 | 미정 | 미정 | 3nm | 5nm + 6nm | 5nm + 6nm | 6nm |
XCD(칩렛) | 미정 | 8(엠씨엠) | 8(엠씨엠) | 8(엠씨엠) | 8(엠씨엠) | 2(MCM), 1(Per Die) |
GPU 코어 | 미정 | 미정 | 16, 384 | 19, 456 | 19, 456 | 14, 080 |
최대 클럭 속도 | 미정 | 미정 | 2400MHz | 2100MHz | 2100MHz | 1700MHz |
INT8 컴퓨팅 | 미정 | 미정 | 5200 탑스 | 2614 탑스 | 2614 탑스 | 383 TOP |
FP6/FP4 매트릭스 | 미정 | 40 PFLOP | 20 PFLOP | 해당 없음 | 해당 없음 | 해당 없음 |
FP8 매트릭스 | 미정 | 20 PFLOP | 5 PFLOP | 2.6 PFLOP | 2.6 PFLOP | 해당 없음 |
FP16 매트릭스 | 미정 | 10 PFLOP | 2.5 PFLOP | 1.3 PFLOP | 1.3 PFLOP | 383 TFLOPs |
FP32 벡터 | 미정 | 미정 | 157.3 TFLOP | 163.4 TFLOP | 163.4 TFLOP | 95.7 TFLOPs |
FP64 벡터 | 미정 | 미정 | 78.6 TFLOPs | 81.7 TFLOPs | 81.7 TFLOPs | 47.9 TFLOPs |
비디오램 | 미정 | 432GB HBM4 | 288GB HBM3e | 256GB HBM3e | 192GB HBM3 | 128GB HBM2e |
인피니티 캐시 | 미정 | 미정 | 256MB | 256MB | 256MB | 해당 없음 |
메모리 클록 | 미정 | 19.6TB/초 | 8.0Gbps | 5.9Gbps | 5.2Gbps | 3.2Gbps |
메모리 버스 | 미정 | 미정 | 8192비트 | 8192비트 | 8192비트 | 8192비트 |
메모리 대역폭 | 미정 | 미정 | 8TB/초 | 6.0TB/초 | 5.3TB/초 | 3.2TB/초 |
폼 팩터 | 미정 | 미정 | 오엠 | 오엠 | 오엠 | 오엠 |
냉각 | 미정 | 미정 | 수동형 / 액체형 | 수동 냉각 | 수동 냉각 | 수동 냉각 |
TDP(최대) | 미정 | 미정 | 1400W(355X) | 1000와트 | 750와트 | 560와트 |
자세한 내용은 출처를 방문하세요.
답글 남기기