
AMD ha presentato ufficialmente i dettagli architettonici completi riguardanti la sua futura architettura GPU RDNA 4, meticolosamente realizzata per la serie Radeon RX 9000.
Presentazione di AMD RDNA 4: una rivoluzione GPU incentrata sui giocatori
Dopo il successo della precedente RDNA 3 e della sua variante migliorata RDNA 3.5, l’architettura RDNA 4 ha generato notevole entusiasmo tra gli appassionati. Sebbene non abbia modelli ultra-entusiasti, l’architettura RDNA 4 introduce miglioramenti significativi mirati specificamente a migliorare le prestazioni di gioco.

Questa ultima architettura presenta diversi miglioramenti chiave:
- Ottimizzazione intensiva per scenari di gioco impegnativi
- Rasterizzazione migliorata ed efficienza di elaborazione
- Progressi significativi nelle prestazioni del ray tracing
- Funzionalità complete di apprendimento automatico
- Miglioramento dell’efficienza della larghezza di banda in tutte le applicazioni
- Miglioramenti multimediali su misura per giocatori e creatori di contenuti

Rispetto a RDNA 2, le GPU RDNA 4 offrono quasi il doppio delle prestazioni di rasterizzazione, capacità di ray tracing fino a 2, 5 volte migliori e un sorprendente miglioramento di 3, 5 volte nei carichi di lavoro di apprendimento automatico su base per unità di calcolo. Approfondiamo i componenti architettonici che compongono RDNA 4.
Innovazioni fondamentali in RDNA 4
Il fulcro dell’architettura GPU RDNA 4 è il nuovo Compute Engine.

Le unità di calcolo (CU) rinnovate vantano unità vettoriali SIMD32 doppie e operazioni di matrice migliorate, offrendo:
- Tariffe aumentate per matrici dense 2x-16b e 4x-8b/4b
- Sparsità strutturata con un rapporto 4:2 per un miglioramento di oltre 2 volte
- Introduzione dei nuovi tipi di dati in virgola mobile 8b
- Caricamento della matrice con capacità di trasposizione
RDNA 4 include anche miglioramenti sostanziali dello shading, consentendo alle shader RDNA 4 di allocare dinamicamente i registri. Questa innovazione consente alle CU di richiedere e rilasciare registri in base alle necessità, ottimizzando così la latenza della memoria e migliorando l’efficienza complessiva del core.

I miglioramenti delle unità scalari introducono nuove operazioni Float32 insieme a una pianificazione migliorata che include barriere divise, processi di spill/fill accelerati e funzionalità di prefetch delle istruzioni migliorate.

In modo significativo, le unità di ray tracing di terza generazione offrono ora tassi di intersezione dei raggi raddoppiati, compressione BVH migliorata e attraversamento e ombreggiatura dei raggi ottimizzati. Ogni acceleratore di raggi è stato aggiornato con:
- Unità di intersezione di box e triangoli aumentate
- Trasformazioni delle istanze hardware
- Gestione migliorata dello stack di ray tracing
- Compressione BVH8 e nodo migliorata
- Riquadri di delimitazione orientati per una maggiore efficienza





Questi aggiornamenti comportano un consumo di memoria notevolmente inferiore per BVH. RDNA 4 ottiene una riduzione media dei requisiti di memoria al di sotto del 60% rispetto a quanto era necessario per RDNA 3, in gran parte grazie alla sua innovativa struttura a 8 larghezze.
Inoltre, AMD ha introdotto un nuovo metodo per ridurre al minimo i costi di attraversamento codificando le rotazioni per ogni box, consentendo una delimitazione più stretta della geometria. Questo approccio di progettazione riduce i passaggi e i picchi di attraversamento, migliorando significativamente l’efficienza delle prestazioni del 10%.Di conseguenza, le CU di RDNA 4 forniscono il doppio dell’efficacia di attraversamento dei raggi rispetto a RDNA 3 con velocità di clock e larghezza di banda costanti.
Un Command Processor aggiornato presenta acceleratori di pacchetti migliorati, mentre la Cache ha visto miglioramenti sostanziali. L’architettura ora include fino a 64 MB di Infinity Cache di terza generazione, 8 MB di cache L2 e 2 MB di cache CU aggregata. RDNA 4 mantiene la compatibilità con GDDR6, ma con un aggiornamento a velocità più elevate che raggiungono fino a 20, 00 Gbps e una capacità massima di 16 GB su un’interfaccia bus a 256 bit. Le tecniche di compressione della memoria migliorate alleviano anche le richieste di larghezza di banda.

Nel campo dell’intelligenza artificiale, AMD utilizza il suo motore Matrix Acceleration di terza generazione, che offre velocità tensoriali migliorate, nuovi tipi di dati in virgola mobile 8b, supporto per la sparsità strutturata e upscaling della risoluzione migliorato dall’apprendimento automatico.




Esaminando le capacità di generazione delle immagini (SDXL 1.5) in condizioni normalizzate, le CU RDNA 4 dimostrano un notevole miglioramento pari a 2 volte rispetto a RDNA 3.




Il Media Engine passa a un formato a doppia larghezza, dotato di motori di codifica/decodifica aggiornati, con conseguenti miglioramenti della qualità fino al 25% in AVC, potenziamenti nella codifica H.264 e H.265 e un raddoppio della produttività AV1. Questo motore è inoltre ottimizzato per ambienti di streaming a bassa latenza. Inoltre, il Radiance Display Engine ora supporta uscite DisplayPort 2.1a e HDMI 2.1b, insieme a un meccanismo di ridimensionamento e nitidezza aggiornato.
Esplorazione dell’architettura GPU RDNA 4: Navi 48 Die
Il diagramma a blocchi RDNA 4 mostra la GPU WeU Navi 48 completa, che è costruita sul nodo di processo a 4 nm di TSMC, che ospita circa 53, 9 miliardi di transistor in un’area del chip di 356, 5 mm². Questa architettura GPU è pienamente conforme agli standard PCIe Gen5.
Analizziamo la GPU Navi 48 (Radeon RX 9070 XT), composta da quattro shader engine, ognuno dei quali ospita più “Dual Compute Unit” anziché WGP. Ogni Dual Compute Unit contiene due Compute Unit, il che porta a una configurazione di otto DCU o 16 CU per Shader Engine. Questo totale è di 32 DCU o 64 CU sul chip, che culminano in un numero sbalorditivo di 4096 stream processor o shader unit.

Ogni DCU è dotata di due motori di accelerazione di raggi, che si traducono in 16 RA per Shader Engine e 64 RA totali. Inoltre, ogni DCU incorpora quattro Matrix Acceleration Engine, che ammontano a 32 MA per Shader Engine e 128 MA in totale. Gli Shader Engine contengono anche quattro blocchi RB+, un motore di rasterizzazione e un blocco di unità primitiva. Il design del chip presenta quattro sezioni di Infinity Cache di terza generazione e quattro controller di memoria 4×16 bit posizionati attorno alla periferia della GPU.
Al centro del chip risiedono le cache L2, che comprendono due processori Geometry, due Asynchronous Compute Engines (ACE) e uno ciascuno di Hardware Scheduler (HWS) e Direct Memory Access (DMA).La connettività attraverso l’architettura è ottenuta tramite Infinity Fabric.
Il futuro del path tracing nel gaming con AMD
Il ray tracing, nonostante la sua attuale popolarità nel gaming su PC, è spesso visto come un approccio tradizionale. Mentre migliora il realismo visivo simulando riflessi, ombre e rifrazioni, è emersa una tecnica più nuova e sofisticata chiamata Path Tracing, che sta guadagnando terreno soprattutto negli scenari di gioco di fascia alta. Path Tracing calcola ogni potenziale percorso di luce per un realismo ancora maggiore.

NVIDIA ha implementato con successo il Path Tracing in titoli graficamente intensivi come Cyberpunk 2077 e Alan Wake II, mostrando effetti visivi sbalorditivi. Ciò è stato reso possibile tramite tecniche avanzate come l’upscaling assistito dall’IA e la generazione di frame, insieme allo sviluppo di una nuova tecnologia di ricostruzione dei raggi che sostituisce i tradizionali denoiser in-engine basandosi sull’IA e sull’apprendimento automatico.
AMD sta allineando le sue capacità di RDNA 4 Path Tracing con una strategia simile, implementando le sue tecnologie Neural Supersampling e Denoising per ottenere una fedeltà grafica migliorata.
Tecnologie multimediali e di visualizzazione avanzate
Per quanto riguarda i componenti Media e Display, AMD ha introdotto aggiornamenti sostanziali per potenziare le prestazioni di streaming e registrazione dei giochi:
- Un miglioramento del 25% nella qualità della codifica AVC a bassa latenza
- Miglioramento dell’11% nella qualità della codifica HEVC
- B Frame ottimizzati per l’efficienza della codifica AV1
- Prestazioni di codifica migliorate fino al 30% a 720p
- Compatibilità con FFMPEG, OBS e Handbrake
- Riproduzione video a basso consumo VCN, che offre un aumento delle prestazioni del 50% per i formati AV1 e VP9

I miglioramenti nella tecnologia di visualizzazione si concentrano sull’ottimizzazione della potenza FreeSync migliorata, che riduce significativamente il consumo di energia inattiva nelle configurazioni a doppio display. Inoltre, il supporto hardware per la pianificazione dei frame scarica le attività sulla GPU, consentendo alle CPU di risparmiare energia durante la riproduzione video. Infine, Radeon Image Sharpening 2 garantisce immagini di alta qualità su tutte le API con un singolo e semplice interruttore.

Lascia un commento ▼