AMD RDNA 4 아키텍처에 대한 심층적 분석: 새로운 컴퓨팅 유닛, 향상된 레이트레이싱 코어, AI 기능 및 경로 추적 기능

AMD는 Radeon RX 9000 시리즈에 맞춰 세심하게 제작된 차기 RDNA 4 GPU 아키텍처에 대한 포괄적인 아키텍처 세부 정보를 공식적으로 공개했습니다.

AMD RDNA 4 소개: 게이머 중심 GPU 혁명

이전 RDNA 3과 향상된 RDNA 3.5 변형 의 성공에 이어 RDNA 4 아키텍처는 매니아들 사이에서 상당한 흥분을 불러일으켰습니다.초매니아 모델은 없지만 RDNA 4 아키텍처는 게임 성능 향상을 특별히 목표로 한 상당한 개선 사항을 도입했습니다.

이 최신 아키텍처는 몇 가지 주요 개선 사항을 제공합니다.

까다로운 게임 시나리오를 위한 집중적인 최적화
향상된 래스터화 및 컴퓨팅 효율성
레이 트레이싱 성능의 상당한 발전
포괄적인 머신 러닝 기능
모든 애플리케이션에서 향상된 대역폭 효율성
게이머와 콘텐츠 제작자를 위해 맞춤화된 멀티미디어 향상

RDNA 2와 비교했을 때, RDNA 4 GPU는 거의 두 배의 래스터화 성능, 최대 2.5배 더 나은 레이 트레이싱 기능, 그리고 컴퓨팅 단위 기준으로 머신 러닝 워크로드에서 3.5배의 놀라운 개선을 제공합니다. RDNA 4를 구성하는 아키텍처 구성 요소를 살펴보겠습니다.

RDNA 4의 핵심 혁신

RDNA 4 GPU 아키텍처의 핵심은 새로운 컴퓨트 엔진입니다.

개편된 컴퓨트 유닛(CU)은 듀얼 SIMD32 벡터 유닛과 향상된 행렬 연산을 자랑하며 다음을 제공합니다.

2x-16b 및 4x-8b/4b 고밀도 매트릭스에 대한 속도 증가
4:2 비율의 구조화된 희소성으로 2배 이상의 개선
새로운 8b 부동 소수점 데이터 유형 소개
전치 기능을 갖춘 매트릭스 로딩

RDNA 4에는 상당한 셰이딩 개선 사항도 포함되어 있어 RDNA 4 셰이딩이 레지스터를 동적으로 할당할 수 있습니다.이 혁신을 통해 CU는 필요에 따라 레지스터를 요청하고 해제할 수 있으므로 메모리 지연 시간을 최적화하고 전반적인 코어 효율성을 향상시킵니다.

스칼라 유닛 향상은 개선된 스케줄링과 함께 새로운 Float32 연산을 도입했으며, 여기에는 분할 장벽, 가속화된 스필/필 프로세스, 향상된 명령어 프리페치 기능이 포함됩니다.

중요한 점은 3세대 레이 트레이싱 유닛이 이제 두 배로 늘어난 레이 교차율, 향상된 BVH 압축, 최적화된 레이 횡단 및 셰이딩을 제공한다는 것입니다.각 레이 가속기는 다음으로 업그레이드되었습니다.

상자 및 삼각형 교차 단위 증가
하드웨어 인스턴스 변환
개선된 레이 트레이싱 스택 관리
향상된 BVH8 및 노드 압축
효율성 향상을 위한 방향성 있는 경계 상자

이러한 업그레이드는 BVH의 메모리 소모를 상당히 낮추는 결과를 가져옵니다. RDNA 4는 혁신적인 8-wide 구조 덕분에 RDNA 3에 필요했던 것의 60% 이하로 평균 메모리 요구 사항을 줄입니다.

게다가 AMD는 각 상자에 대한 회전을 인코딩하여 트래버설 비용을 최소화하는 새로운 방법을 도입하여 지오메트리의 더 엄격한 경계를 허용했습니다.이 설계 방식은 트래버설 단계와 피크를 줄여 성능 효율성을 10%나 크게 향상시킵니다.결과적으로 RDNA 4의 CU는 일관된 클록 속도와 대역폭에서 RDNA 3에 비해 두 배의 레이 트래버설 효능을 제공합니다.

업그레이드된 Command Processor는 향상된 패킷 가속기를 특징으로 하며, Cache는 상당한 개선을 보였습니다.이 아키텍처는 이제 최대 64MB의 3세대 Infinity Cache, 8MB의 L2 캐시, 2MB의 집계 CU 캐시를 포함합니다. RDNA 4는 GDDR6 호환성을 유지하지만, 최대 20.00Gbps에 도달하는 더 빠른 속도와 256비트 버스 인터페이스에서 최대 16GB의 용량으로 업그레이드되었습니다.향상된 메모리 압축 기술도 대역폭 수요를 완화합니다.

인공지능 분야에서 AMD는 개선된 텐서 비율, 새로운 8b 부동 소수점 데이터 유형, 구조화된 희소성 지원, 머신 러닝을 통한 해상도 업스케일링 기능을 갖춘 3세대 매트릭스 가속 엔진을 활용합니다.

정규화된 조건에서 이미지 생성 기능(SDXL 1.5)을 검토할 때, RDNA 4 CU는 RDNA 3에 비해 2배 더 뛰어난 향상을 보였습니다.

미디어 엔진은 업그레이드된 인코드/디코드 엔진을 갖춘 듀얼 폭 포맷으로 전환되어 AVC에서 최대 25%의 품질 개선, H.264 및 H.265 인코딩의 향상, AV1 처리량의 두 배 증가를 가져왔습니다.이 엔진은 또한 저지연 스트리밍 환경에 최적화되어 있습니다.더욱이 Radiance Display Engine은 이제 DisplayPort 2.1a 및 HDMI 2.1b 출력과 새로워진 스케일링 및 선명화 메커니즘을 수용합니다.

RDNA 4 GPU 아키텍처 탐색: Navi 48 Die

RDNA 4 블록 다이어그램은 TSMC의 4nm 공정 노드에 구축된 전체 Navi 48 GPU WeU를 보여줍니다.이 GPU 아키텍처는 356.5mm²의 칩 면적 내에 약 539억 개의 트랜지스터를 수용합니다.이 GPU 아키텍처는 PCIe Gen5 표준을 완벽하게 준수합니다.

Navi 48 GPU(Radeon RX 9070 XT)를 분석해 보겠습니다.이 GPU는 4개의 셰이더 엔진으로 구성되어 있으며, 각각 WGP 대신 여러 개의 “듀얼 컴퓨트 유닛”을 수용합니다.각 듀얼 컴퓨트 유닛에는 2개의 컴퓨트 유닛이 포함되어 있어 셰이더 엔진당 8개의 DCU 또는 16개의 CU로 구성됩니다.이는 칩에 32개의 DCU 또는 64개의 CU가 있으며, 엄청난 4096개의 스트림 프로세서 또는 셰이더 유닛으로 마무리됩니다.

각 DCU에는 두 개의 레이 가속기 엔진이 장착되어 있어 셰이더 엔진당 16개의 RA와 총 64개의 RA로 변환됩니다.또한 모든 DCU에는 4개의 매트릭스 가속 엔진이 통합되어 있어 셰이더 엔진당 32개의 MA와 총 128개의 MA로 변환됩니다.셰이더 엔진에는 또한 4개의 RB+ 블록, 래스터라이저 엔진, 원시 단위 블록이 포함됩니다.칩 설계에는 3세대 인피니티 캐시의 4개 섹션과 GPU 주변에 배치된 4개의 4×16비트 메모리 컨트롤러가 있습니다.

칩의 중앙에는 L2 캐시가 있으며, 여기에는 두 개의 Geometry 프로세서, 두 개의 Asynchronous Compute Engines(ACE), 그리고 각각 하나의 Hardware Scheduler(HWS)와 Direct Memory Access(DMA)가 포함됩니다.아키텍처 전반의 연결은 Infinity Fabric을 통해 달성됩니다.

AMD와 함께하는 게임의 경로 추적의 미래

레이 트레이싱은 현재 PC 게임에서 인기가 있지만 종종 전통적인 접근 방식으로 간주됩니다.반사, 그림자, 굴절을 시뮬레이션하여 시각적 사실성을 향상시키는 반면, 경로 추적이라는 새로운 보다 정교한 기술이 등장하여 특히 하이엔드 게임 시나리오에서 인기를 얻고 있습니다.경로 추적은 더욱 사실적인 모든 잠재적인 빛의 경로를 계산합니다.

NVIDIA는 Cyberpunk 2077 및 Alan Wake II와 같은 그래픽 집약적 타이틀에서 Path Tracing을 성공적으로 구현하여 놀라운 비주얼을 선보였습니다.이는 AI 지원 업스케일링 및 프레임 생성과 같은 고급 기술과 AI 및 머신 러닝에 의존하여 기존 엔진 내 디노이저를 대체하는 새로운 레이 재구성 기술의 개발을 통해 실현 가능해졌습니다.

AMD는 RDNA 4 경로 추적 기능을 유사한 전략에 맞춰 신경망 슈퍼 샘플링 및 노이즈 제거 기술을 배포하여 향상된 그래픽 충실도를 달성하고 있습니다.

향상된 미디어 및 디스플레이 기술

미디어 및 디스플레이 구성 요소를 다루면서 AMD는 게임 스트리밍 및 녹화 성능을 높이기 위해 상당한 업그레이드를 도입했습니다.

AVC 저지연 인코딩 품질이 25% 향상되었습니다.
HEVC 인코딩 품질 11% 향상
AV1 인코딩 효율성을 위한 최적화된 B 프레임
720p에서 최대 30% 인코딩 성능 향상
FFMPEG, OBS 및 Handbrake와의 호환성
VCN 저전력 비디오 재생은 AV1 및 VP9 포맷에 대해 50% 성능 향상을 제공합니다.

디스플레이 기술의 개선은 향상된 FreeSync 전력 최적화에 초점을 맞추었으며, 이는 듀얼 디스플레이 구성에서 유휴 전력 소비를 크게 줄입니다.또한, 프레임 스케줄링을 위한 하드웨어 지원은 작업을 GPU로 오프로드하여 CPU가 비디오 재생 중에 전력을 보존할 수 있도록 합니다.마지막으로, Radeon Image Sharpening 2는 단일하고 간단한 토글로 모든 API에서 고품질 이미지를 보장합니다.