
AMD는 인공지능(AI) 기능과 개발자 생산성을 모두 향상시키도록 설계된 최신 오픈 소프트웨어 스택 기술인 ROCm 7을 공식 출시했습니다.
ROCm 7 소개: AI 추론에 초점을 맞춘 향상된 오픈 소프트웨어 혁신
ROCm 7을 공개함으로써 AMD는 이전 버전인 ROCm 6에서 크게 업그레이드된 모습을 보여주었습니다. ROCm 6은 지난 몇 년간, 특히 AI 컴퓨팅의 부상과 관련하여 수많은 개선을 거쳤습니다. ROCm 7을 게임 체인저로 만드는 주요 기능은 다음과 같습니다.
- 최첨단 알고리즘 및 모델
- AI 확장성을 위한 강력한 기능
- MI350 시리즈 지원
- 포괄적인 클러스터 관리
- 엔터프라이즈급 기능

AMD는 ROCm 소프트웨어 스택의 추론 기능 강화에 중점을 두고 있습니다.새로운 ROCm 7은 vLLM v1, llm-d, SGLang을 포함한 고급 프레임워크를 제공합니다.또한, 분산 추론(Distributed Inference), 사전 채우기(Prefill), 분리(Disaggregation)와 같은 유용한 최적화 기능을 도입하여 성능과 유연성을 향상시킵니다.
새롭게 통합된 커널과 알고리즘에는 GEMM 자동 튜닝, 전문가 혼합(MoE), 어텐션 메커니즘, 그리고 Python을 사용하여 커널을 작성하는 기능이 포함됩니다.이러한 개선 사항은 AI 애플리케이션 개발 프로세스를 간소화할 것으로 기대됩니다.

또한 ROCm 7은 FP8, FP6, FP4는 물론 혼합 정밀도를 포함한 고급 데이터 유형에 대한 완벽한 지원을 제공하여 MI350 시리즈 GPU의 기능을 더욱 확장합니다.
성능 측면에서 AMD는 ROCm 7의 주요 초점이 추론이었음을 강조하며 AI 워크로드에서 최대 3.5배의 성능 향상을 보고했습니다.구체적으로, Llama 3.1 70B는 최대 3.2배, Qwen2-72B는 3.4배, Deep Seek R1은 ROCm 6 대비 3.8배의 놀라운 성능 향상을 보였습니다.
답글 남기기