Examen approfondi de l’architecture AMD RDNA 4 : nouvelles unités de calcul, cœurs de raytracing améliorés, fonctionnalités d’IA et capacités de traçage de chemin

Examen approfondi de l’architecture AMD RDNA 4 : nouvelles unités de calcul, cœurs de raytracing améliorés, fonctionnalités d’IA et capacités de traçage de chemin

AMD a officiellement présenté des détails architecturaux complets concernant sa prochaine architecture GPU RDNA 4, qui a été méticuleusement conçue pour la série Radeon RX 9000.

Présentation d’AMD RDNA 4 : une révolution GPU centrée sur les joueurs

Après le succès du précédent RDNA 3 et de sa variante améliorée RDNA 3.5, l’architecture RDNA 4 a suscité un engouement considérable parmi les passionnés. Bien qu’elle manque de modèles ultra-enthousiastes, l’architecture RDNA 4 introduit des améliorations significatives visant spécifiquement à améliorer les performances de jeu.

Présentation de l'architecture AMD RDNA 4

Cette dernière architecture présente plusieurs améliorations clés :

  • Optimisation intensive pour les scénarios de jeu exigeants
  • Rastérisation et efficacité de calcul améliorées
  • Des progrès significatifs dans les performances du lancer de rayons
  • Capacités complètes d’apprentissage automatique
  • Amélioration de l’efficacité de la bande passante dans toutes les applications
  • Améliorations multimédia adaptées aux joueurs et aux créateurs de contenu
Améliorations de l'architecture AMD RDNA 4

Par rapport à RDNA 2, les GPU RDNA 4 offrent des performances de rastérisation presque deux fois supérieures, des capacités de traçage de rayons jusqu’à 2, 5 fois supérieures et une amélioration spectaculaire de 3, 5 fois des charges de travail d’apprentissage automatique par unité de calcul. Examinons de plus près les composants architecturaux qui composent RDNA 4.

Innovations fondamentales dans RDNA 4

La pièce maîtresse de l’architecture GPU RDNA 4 est le nouveau Compute Engine.

Moteur de calcul RDNA 4

Les unités de calcul (CU) remaniées disposent de deux unités vectorielles SIMD32 et d’opérations matricielles améliorées, offrant :

  • Taux augmentés pour les matrices denses 2x-16b et 4x-8b/4b
  • Une parcimonie structurée dans un rapport de 4:2 pour une amélioration de plus de 2x
  • Introduction de nouveaux types de données à virgule flottante 8b
  • Chargement de matrice avec capacités de transposition

RDNA 4 inclut également des améliorations substantielles en matière d’ombrage, permettant aux nuances RDNA 4 d’allouer dynamiquement des registres. Cette innovation permet aux unités centrales de demander et de libérer des registres selon les besoins, optimisant ainsi la latence de la mémoire et améliorant l’efficacité globale du cœur.

Allocation de registre dynamique

Les améliorations de l’unité scalaire introduisent de nouvelles opérations Float32 ainsi qu’une planification améliorée qui inclut des barrières fractionnées, des processus de déversement/remplissage accélérés et des capacités de prélecture d’instructions améliorées.

Améliorations de l'unité scalaire RDNA 4

Les unités de traçage de rayons de 3e génération offrent désormais des taux d’intersection de rayons doublés, une compression BVH améliorée et une traversée et un ombrage des rayons optimisés. Chaque accélérateur de rayons a été mis à niveau avec :

  • Augmentation des unités d’intersection de boîtes et de triangles
  • Transformations d’instances matérielles
  • Gestion améliorée de la pile de lancer de rayons
  • Compression BVH8 et nœuds améliorée
  • Boîtes englobantes orientées pour une efficacité accrue
Améliorations du Ray TracingFonctionnalités améliorées du Ray TracingInnovations dans l'architecture du lancer de rayonsAméliorations du lancer de rayonsTraitement des rayons amélioré

Ces mises à niveau conduisent à une consommation de mémoire considérablement plus faible pour BVH. RDNA 4 atteint une réduction moyenne des besoins en mémoire à moins de 60 % de ce qui était nécessaire pour RDNA 3, en grande partie grâce à sa structure innovante à 8 largeurs.

De plus, AMD a introduit une nouvelle méthode pour minimiser les coûts de traversée en codant les rotations pour chaque boîte, ce qui permet une délimitation plus stricte de la géométrie. Cette approche de conception réduit les étapes et les pics de traversée, améliorant ainsi considérablement l’efficacité des performances de 10 %.Par conséquent, les CU de RDNA 4 offrent une efficacité de traversée de rayons deux fois supérieure à celle de RDNA 3 à des vitesses d’horloge et une bande passante constantes.

Un processeur de commande mis à niveau comprend des accélérateurs de paquets améliorés, tandis que le cache a connu des améliorations substantielles. L’architecture comprend désormais jusqu’à 64 Mo de cache Infinity de 3e génération, 8 Mo de cache L2 et 2 Mo de cache CU agrégé. RDNA 4 conserve la compatibilité GDDR6, mais avec une mise à niveau vers des vitesses plus rapides atteignant jusqu’à 20, 00 Gbit/s et une capacité maximale de 16 Go sur une interface de bus 256 bits. Les techniques de compression de mémoire améliorées réduisent également les exigences en bande passante.

Architecture de mémoire RDNA 4

Dans le domaine de l’intelligence artificielle, AMD utilise son moteur d’accélération matricielle de 3e génération, qui présente des taux de tenseur améliorés, de nouveaux types de données à virgule flottante 8b, une prise en charge de la parcimonie structurée et une mise à l’échelle de la résolution améliorée par l’apprentissage automatique.

Améliorations de l'IA et du MLPrise en charge améliorée des tenseursGraphiques accélérés par l'apprentissage automatiqueTraitement d'images piloté par l'IA

Lors de l’examen des capacités de génération d’images (SDXL 1.5) dans des conditions normalisées, les CU RDNA 4 démontrent une amélioration remarquable de 2x par rapport à RDNA 3.

Performances de génération d'imagesAméliorations du rendu visuelCapacité de production d'imagesTechnologie visuelle avancée

Le Media Engine passe à un format double largeur, équipé de moteurs d’encodage/décodage améliorés, ce qui se traduit par des améliorations de qualité allant jusqu’à 25 % en AVC, des améliorations dans l’encodage H.264 et H.265 et un doublement du débit AV1. Ce moteur est également optimisé pour les environnements de streaming à faible latence. De plus, le Radiance Display Engine prend désormais en charge les sorties DisplayPort 2.1a et HDMI 2.1b, ainsi qu’un mécanisme de mise à l’échelle et de netteté actualisé.

Exploration de l’architecture GPU RDNA 4 : la puce Navi 48

Le schéma fonctionnel RDNA 4 présente l’intégralité du GPU Navi 48 WeU, qui est construit sur le nœud de processus 4 nm de TSMC, abritant environ 53, 9 milliards de transistors dans une zone de puce de 356, 5 mm². Cette architecture GPU est entièrement conforme aux normes PCIe Gen5.

Analysons le GPU Navi 48 (Radeon RX 9070 XT), composé de quatre moteurs de shader, chacun abritant plusieurs « Dual Compute Units » au lieu de WGP. Chaque Dual Compute Unit contient deux unités de calcul, ce qui donne une configuration de huit DCU ou 16 CU par Shader Engine. Cela fait un total de 32 DCU ou 64 CU sur la puce, aboutissant à un nombre impressionnant de 4096 processeurs de flux ou unités de shader.

Architecture du GPU Navi 48

Chaque DCU est équipé de deux moteurs d’accélération de rayons, ce qui correspond à 16 RA par moteur de shader et 64 RA au total. De plus, chaque DCU intègre quatre moteurs d’accélération de matrice, soit 32 MA par moteur de shader et 128 MA au total. Les moteurs de shader contiennent également quatre blocs RB+, un moteur de rastérisation et un bloc d’unités primitives. La conception de la puce comprend quatre sections de caches Infinity de 3e génération et quatre contrôleurs de mémoire 4×16 bits positionnés autour de la périphérie du GPU.

Au centre de la puce se trouvent les caches L2, qui englobent deux processeurs Geometry, deux moteurs de calcul asynchrones (ACE) et un planificateur matériel (HWS) et un accès direct à la mémoire (DMA).La connectivité sur l’ensemble de l’architecture est assurée par Infinity Fabric.

L’avenir du Path Tracing dans le jeu avec AMD

Le traçage de rayons, malgré sa popularité actuelle dans les jeux PC, est souvent considéré comme une approche traditionnelle. Bien qu’il améliore le réalisme visuel en simulant des reflets, des ombres et des réfractions, une nouvelle technique plus sophistiquée appelée Path Tracing a émergé, gagnant du terrain notamment dans les scénarios de jeu haut de gamme. Le Path Tracing calcule chaque chemin de lumière potentiel pour un réalisme encore plus grand.

Avances graphiques du traçage de chemin

NVIDIA a implémenté avec succès le Path Tracing dans des titres aux graphismes très poussés comme Cyberpunk 2077 et Alan Wake II, offrant des visuels époustouflants. Cela a été rendu possible grâce à des techniques avancées telles que la mise à l’échelle assistée par l’IA et la génération d’images, ainsi que le développement d’une nouvelle technologie de reconstruction de rayons qui remplace les débruiteurs traditionnels intégrés au moteur en s’appuyant sur l’IA et l’apprentissage automatique.

AMD aligne ses capacités de traçage de chemin RDNA 4 avec une stratégie similaire, en déployant ses technologies de suréchantillonnage neuronal et de débruitage pour obtenir une fidélité graphique améliorée.

Technologies multimédia et d’affichage améliorées

En ce qui concerne les composants multimédia et d’affichage, AMD a introduit des mises à niveau substantielles pour améliorer les performances de streaming et d’enregistrement des jeux :

  • Une amélioration de 25 % de la qualité d’encodage à faible latence AVC
  • Amélioration de 11 % de la qualité de l’encodage HEVC
  • Images B optimisées pour l’efficacité de l’encodage AV1
  • Jusqu’à 30 % d’amélioration des performances d’encodage à 720p
  • Compatibilité avec FFMPEG, OBS et Handbrake
  • Lecture vidéo à faible consommation VCN, offrant une amélioration des performances de 50 % pour les formats AV1 et VP9
Améliorations du moteur multimédia

Les améliorations apportées à la technologie d’affichage se concentrent sur l’optimisation de l’alimentation FreeSync, qui réduit considérablement la consommation d’énergie en veille dans les configurations à double écran. De plus, la prise en charge matérielle de la planification des images décharge les tâches sur le GPU, ce qui permet aux processeurs d’économiser de l’énergie pendant la lecture vidéo. Enfin, Radeon Image Sharpening 2 garantit des images de haute qualité sur toutes les API grâce à une bascule unique et simple.

Mises à niveau du moteur d'affichage

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *