
AMD ha presentado oficialmente detalles arquitectónicos completos sobre su próxima arquitectura de GPU RDNA 4, que ha sido diseñada meticulosamente para la serie Radeon RX 9000.
Presentamos AMD RDNA 4: una revolución de GPU centrada en los jugadores
Tras el éxito de la anterior RDNA 3 y su variante mejorada RDNA 3.5, la arquitectura RDNA 4 ha generado un gran entusiasmo entre los entusiastas. Aunque carece de modelos para los más entusiastas, la arquitectura RDNA 4 introduce mejoras significativas destinadas específicamente a mejorar el rendimiento de los juegos.

Esta última arquitectura presenta varias mejoras clave:
- Optimización intensiva para escenarios de juego exigentes
- Rasterización mejorada y eficiencia computacional
- Avances significativos en el rendimiento del trazado de rayos
- Capacidades integrales de aprendizaje automático
- Eficiencia de ancho de banda mejorada en todas las aplicaciones
- Mejoras multimedia diseñadas para jugadores y creadores de contenido.

En comparación con RDNA 2, las GPU RDNA 4 ofrecen casi el doble de rendimiento de rasterización, capacidades de trazado de rayos hasta 2, 5 veces mejores y una sorprendente mejora de 3, 5 veces en las cargas de trabajo de aprendizaje automático por unidad de cómputo. Profundicemos en los componentes arquitectónicos que conforman RDNA 4.
Innovaciones fundamentales en RDNA 4
La pieza central de la arquitectura de la GPU RDNA 4 es el nuevo Compute Engine.

Las unidades de cómputo (CU) renovadas cuentan con unidades vectoriales SIMD32 duales y operaciones matriciales mejoradas, que ofrecen:
- Tasas aumentadas para matrices densas 2x-16b y 4x-8b/4b
- Escasez estructurada en una proporción de 4:2 para una mejora de más del doble
- Introducción de nuevos tipos de datos de punto flotante 8b
- Carga de matriz con capacidades de transposición
RDNA 4 también incluye mejoras sustanciales en el sombreado, lo que permite que los sombreados de RDNA 4 asignen registros de forma dinámica. Esta innovación permite que las UC soliciten y liberen registros según sea necesario, optimizando así la latencia de la memoria y mejorando la eficiencia general del núcleo.

Las mejoras de la unidad escalar introducen nuevas operaciones Float32 junto con una programación mejorada que incluye barreras divididas, procesos de llenado/derrame acelerados y capacidades mejoradas de precarga de instrucciones.

Cabe destacar que las unidades de trazado de rayos de tercera generación ahora ofrecen tasas de intersección de rayos duplicadas, compresión BVH mejorada y sombreado y recorrido de rayos optimizados. Cada acelerador de rayos se ha actualizado con:
- Aumento de las unidades de intersección de cajas y triángulos
- Transformaciones de instancias de hardware
- Gestión mejorada de la pila de trazado de rayos
- Compresión de nodos y BVH8 mejorada
- Cuadros delimitadores orientados para una mayor eficiencia





Estas actualizaciones dan como resultado un consumo de memoria considerablemente menor para BVH. RDNA 4 logra una reducción promedio de los requisitos de memoria por debajo del 60 % de lo que era necesario para RDNA 3, en gran medida debido a su innovadora estructura de 8 anchos.
Además, AMD ha introducido un nuevo método para minimizar los costos de recorrido mediante la codificación de rotaciones para cada cuadro, lo que permite una delimitación más estricta de la geometría. Este enfoque de diseño reduce los pasos y picos de recorrido, lo que mejora la eficiencia del rendimiento significativamente en un 10 %.En consecuencia, las CU de RDNA 4 brindan el doble de eficacia de recorrido de rayos en comparación con RDNA 3 con velocidades de reloj y ancho de banda constantes.
Un procesador de comandos actualizado cuenta con aceleradores de paquetes mejorados, mientras que la caché ha experimentado mejoras sustanciales. La arquitectura ahora incluye hasta 64 MB de caché Infinity de tercera generación, 8 MB de caché L2 y 2 MB de caché CU agregada. RDNA 4 conserva la compatibilidad con GDDR6, pero con una actualización a velocidades más rápidas que alcanzan hasta 20, 00 Gbps y una capacidad máxima de 16 GB en una interfaz de bus de 256 bits. Las técnicas de compresión de memoria mejoradas también alivian las demandas de ancho de banda.

En el ámbito de la inteligencia artificial, AMD utiliza su motor de aceleración de matriz de tercera generación, que cuenta con tasas de tensor mejoradas, nuevos tipos de datos de punto flotante 8b, soporte de escasez estructurada y aumento de resolución mejorado mediante aprendizaje automático.




Al examinar las capacidades de generación de imágenes (SDXL 1.5) en condiciones normalizadas, las CU RDNA 4 demuestran una notable mejora de 2x en comparación con RDNA 3.




El Media Engine pasa a un formato de ancho dual, equipado con motores de codificación/decodificación mejorados, lo que da como resultado mejoras de calidad de hasta un 25 % en AVC, mejoras en la codificación H.264 y H.265 y una duplicación del rendimiento de AV1. Este motor también está optimizado para entornos de transmisión de baja latencia. Además, el Radiance Display Engine ahora admite salidas DisplayPort 2.1a y HDMI 2.1b, junto con un mecanismo de escalado y nitidez actualizado.
Explorando la arquitectura de GPU RDNA 4: la matriz Navi 48
El diagrama de bloques de RDNA 4 muestra la GPU Navi 48 WeU completa, que está construida sobre el nodo de proceso de 4 nm de TSMC y alberga aproximadamente 53, 9 mil millones de transistores dentro de un área de chip de 356, 5 mm². Esta arquitectura de GPU cumple totalmente con los estándares PCIe Gen5.
Analicemos la GPU Navi 48 (Radeon RX 9070 XT), que consta de cuatro motores de sombreado, cada uno de los cuales alberga varias «unidades de cómputo duales» en lugar de WGP. Cada unidad de cómputo dual contiene dos unidades de cómputo, lo que da como resultado una configuración de ocho DCU o 16 CU por motor de sombreado. Esto suma un total de 32 DCU o 64 CU en el chip, lo que da como resultado la asombrosa cantidad de 4096 procesadores de flujo o unidades de sombreado.

Cada DCU está equipada con dos motores de aceleración de rayos, lo que se traduce en 16 RA por Shader Engine y 64 RA en total. Además, cada DCU incorpora cuatro motores de aceleración de matriz, lo que suma 32 MA por Shader Engine y 128 MA en total. Los Shader Engines también contienen cuatro bloques RB+, un motor rasterizador y un bloque de unidad primitiva. El diseño del chip presenta cuatro secciones de cachés Infinity de tercera generación y cuatro controladores de memoria de 4×16 bits ubicados alrededor de la periferia de la GPU.
En el centro del chip se encuentran las cachés L2, que abarcan dos procesadores Geometry, dos motores de cómputo asíncronos (ACE) y uno de Hardware Scheduler (HWS) y otro de Direct Memory Access (DMA).La conectividad en toda la arquitectura se logra mediante Infinity Fabric.
El futuro del trazado de rutas en los juegos con AMD
El trazado de rayos, a pesar de su popularidad actual en los juegos de PC, suele considerarse un enfoque tradicional. Si bien mejora el realismo visual al simular reflejos, sombras y refracciones, ha surgido una técnica más nueva y sofisticada llamada Path Tracing, que está ganando terreno especialmente en escenarios de juegos de alta gama. Path Tracing calcula cada posible trayectoria de luz para lograr un realismo aún mayor.

NVIDIA ha implementado con éxito Path Tracing en títulos con uso intensivo de gráficos como Cyberpunk 2077 y Alan Wake II, que ofrecen imágenes impresionantes. Esto fue posible gracias a técnicas avanzadas como el aumento de escala y la generación de cuadros asistidos por IA, junto con el desarrollo de una nueva tecnología de reconstrucción de rayos que reemplaza a los eliminadores de ruido tradicionales en el motor al basarse en la IA y el aprendizaje automático.
AMD está alineando sus capacidades de rastreo de rutas RDNA 4 con una estrategia similar, implementando sus tecnologías Neural Supersampling y Denoising para lograr una fidelidad gráfica mejorada.
Tecnologías de visualización y medios mejorados
En cuanto a los componentes multimedia y de visualización, AMD ha introducido mejoras sustanciales para mejorar el rendimiento de la transmisión y grabación de juegos:
- Una mejora del 25 % en la calidad de codificación de baja latencia AVC
- Mejora del 11 % en la calidad de codificación HEVC
- Cuadros B optimizados para la eficiencia de codificación AV1
- Aumento del rendimiento de codificación de hasta un 30 % a 720p
- Compatibilidad con FFMPEG, OBS y Handbrake
- Reproducción de video de bajo consumo VCN, que ofrece un aumento del rendimiento del 50 % para los formatos AV1 y VP9

Las mejoras en la tecnología de visualización se centran en la optimización de energía de FreeSync, que reduce significativamente el consumo de energía en inactividad en configuraciones de dos pantallas. Además, la compatibilidad de hardware con la programación de cuadros descarga tareas a la GPU, lo que permite que las CPU conserven energía durante la reproducción de video. Por último, Radeon Image Sharpening 2 garantiza imágenes de alta calidad en todas las API con un interruptor único y sencillo.

Deja una respuesta ▼