Detaillierter Blick auf die AMD RDNA 4-Architektur: Neue Recheneinheiten, verbesserte Raytracing-Kerne, KI-Funktionen und Path-Tracing-Funktionen

Detaillierter Blick auf die AMD RDNA 4-Architektur: Neue Recheneinheiten, verbesserte Raytracing-Kerne, KI-Funktionen und Path-Tracing-Funktionen

AMD hat offiziell umfassende Architekturdetails zu seiner kommenden RDNA 4-GPU-Architektur vorgestellt, die sorgfältig für die Radeon RX 9000-Serie entwickelt wurde.

Wir stellen AMD RDNA 4 vor: Eine GPU-Revolution für Gamer

Nach dem Erfolg des vorherigen RDNA 3 und seiner verbesserten Variante RDNA 3.5 hat die RDNA 4-Architektur bei Enthusiasten für erhebliche Begeisterung gesorgt. Obwohl es keine Ultra-Enthusiasten-Modelle gibt, führt die RDNA 4-Architektur erhebliche Verbesserungen ein, die speziell auf die Verbesserung der Spieleleistung abzielen.

Überblick über die AMD RDNA 4-Architektur

Diese neueste Architektur weist mehrere wichtige Verbesserungen auf:

  • Intensive Optimierung für anspruchsvolle Gaming-Szenarien
  • Verbesserte Rasterung und Rechenleistung
  • Deutliche Fortschritte bei der Raytracing-Leistung
  • Umfassende Funktionen für maschinelles Lernen
  • Verbesserte Bandbreiteneffizienz für alle Anwendungen
  • Auf Gamer und Content-Ersteller zugeschnittene Multimedia-Erweiterungen
Verbesserungen der AMD RDNA 4-Architektur

Im Vergleich zu RDNA 2 bieten RDNA 4-GPUs fast die doppelte Rasterisierungsleistung, bis zu 2, 5-mal bessere Raytracing-Funktionen und eine beeindruckende 3, 5-fache Verbesserung der Workloads für maschinelles Lernen pro Recheneinheit. Lassen Sie uns tiefer in die Architekturkomponenten eintauchen, aus denen RDNA 4 besteht.

Kerninnovationen in RDNA 4

Das Herzstück der RDNA 4-GPU-Architektur ist die neue Compute Engine.

RDNA 4-Rechen-Engine

Die überarbeiteten Compute Units (CUs) verfügen über duale SIMD32-Vektoreinheiten und verbesserte Matrixoperationen und bieten:

  • Erhöhte Raten für dichte Matrizen mit 2x-16b und 4x-8b/4b
  • Strukturierte Spärlichkeit im Verhältnis 4:2 für eine über doppelt so hohe Verbesserung
  • Einführung neuer 8b-Gleitkomma-Datentypen
  • Matrixladen mit Transponierungsfunktionen

RDNA 4 enthält außerdem wesentliche Shading-Verbesserungen, die es RDNA 4-Shades ermöglichen, Register dynamisch zuzuweisen. Diese Innovation ermöglicht es den CUs, Register nach Bedarf anzufordern und freizugeben, wodurch die Speicherlatenz optimiert und die Gesamteffizienz des Kerns verbessert wird.

Dynamische Registerzuordnung

Die Verbesserungen der Skalareinheit führen neue Float32-Operationen sowie eine verbesserte Planung ein, die Split-Barrieren, beschleunigte Spill/Fill-Prozesse und erweiterte Funktionen zum Vorabrufen von Anweisungen umfasst.

Verbesserungen der Skalareinheit in RDNA 4

Bemerkenswerterweise bieten die Raytracing-Einheiten der 3. Generation jetzt doppelt so hohe Strahlschnittraten, verbesserte BVH-Komprimierung und optimierte Strahldurchquerung und -schattierung. Jeder Strahlenbeschleuniger wurde mit folgenden Funktionen aufgerüstet:

  • Erhöhte Anzahl von Kasten- und Dreieckskreuzungseinheiten
  • Hardware-Instanztransformationen
  • Verbessertes Raytracing-Stack-Management
  • Verbesserte BVH8- und Knotenkomprimierung
  • Orientierte Begrenzungsrahmen für mehr Effizienz
Verbesserungen beim RaytracingErweiterte Raytracing-FunktionenInnovationen in der Raytracing-ArchitekturRaytracing-VerbesserungenVerbesserte Strahlenverarbeitung

Diese Upgrades führen zu einem deutlich geringeren Speicherverbrauch für BVH. RDNA 4 erreicht eine Reduzierung des durchschnittlichen Speicherbedarfs auf unter 60 % des für RDNA 3 erforderlichen Werts, was hauptsächlich auf die innovative 8-Breit-Struktur zurückzuführen ist.

Darüber hinaus hat AMD eine neue Methode eingeführt, um die Durchquerungskosten zu minimieren, indem Rotationen für jede Box kodiert werden, was eine engere Begrenzung der Geometrie ermöglicht. Dieser Designansatz verringert Durchquerungsschritte und -spitzen und verbessert die Leistungseffizienz deutlich um 10 %.Folglich bieten die CUs von RDNA 4 bei gleichbleibender Taktrate und Bandbreite die doppelte Strahldurchquerungseffizienz im Vergleich zu RDNA 3.

Ein aktualisierter Befehlsprozessor verfügt über verbesserte Paketbeschleuniger, während der Cache erhebliche Verbesserungen erfahren hat. Die Architektur umfasst jetzt bis zu 64 MB Infinity Cache der 3. Generation, 8 MB L2-Cache und 2 MB aggregierten CU-Cache. RDNA 4 behält die GDDR6-Kompatibilität bei, bietet jedoch ein Upgrade auf schnellere Geschwindigkeiten von bis zu 20, 00 Gbit/s und eine maximale Kapazität von 16 GB über eine 256-Bit-Busschnittstelle. Verbesserte Speicherkomprimierungstechniken verringern auch die Bandbreitenanforderungen.

RDNA 4-Speicherarchitektur

Im Bereich der künstlichen Intelligenz verwendet AMD seine Matrix-Beschleunigungs-Engine der 3. Generation, die verbesserte Tensorraten, neue 8b-Gleitkomma-Datentypen, strukturierte Sparsity-Unterstützung und eine durch maschinelles Lernen verbesserte Auflösungsskalierung bietet.

KI- und ML-VerbesserungenVerbesserte Tensor-UnterstützungDurch maschinelles Lernen beschleunigte GrafikKI-gesteuerte Bildverarbeitung

Bei der Untersuchung der Bilderzeugungsfunktionen (SDXL 1.5) unter normalisierten Bedingungen weisen RDNA 4 CUs eine bemerkenswerte Verdoppelung der Leistung im Vergleich zu RDNA 3 auf.

Leistung der BildgenerierungVerbesserungen bei der visuellen DarstellungBildproduktionskapazitätFortschrittliche visuelle Technologie

Die Media Engine wechselt zu einem Format mit doppelter Breite und ist mit verbesserten Codierungs-/Decodierungs-Engines ausgestattet, was zu Qualitätsverbesserungen von bis zu 25 % bei AVC, Verbesserungen bei der H.264- und H.265-Codierung und einer Verdoppelung des AV1-Durchsatzes führt. Diese Engine ist auch für Streaming-Umgebungen mit geringer Latenz optimiert. Darüber hinaus unterstützt die Radiance Display Engine jetzt DisplayPort 2.1a- und HDMI 2.1b-Ausgänge sowie einen aktualisierten Skalierungs- und Schärfungsmechanismus.

Erkundung der RDNA 4-GPU-Architektur: Der Navi 48-Chip

Das RDNA 4-Blockdiagramm zeigt die vollständige Navi 48 GPU WeU, die auf dem 4-nm-Prozessknoten von TSMC basiert und ungefähr 53, 9 Milliarden Transistoren auf einer Chipfläche von 356, 5 mm² beherbergt. Diese GPU-Architektur entspricht vollständig den PCIe Gen5-Standards.

Lassen Sie uns die Navi 48 GPU (Radeon RX 9070 XT) analysieren, die aus vier Shader-Engines besteht, von denen jede mehrere „Dual Compute Units“ anstelle von WGPs enthält. Jede Dual Compute Unit enthält zwei Compute Units, was zu einer Konfiguration von acht DCUs oder 16 CUs pro Shader-Engine führt. Dies ergibt insgesamt 32 DCUs oder 64 CUs auf dem Chip, was zu erstaunlichen 4096 Stream-Prozessoren oder Shader-Einheiten führt.

Navi 48 GPU-Architektur

Jede DCU ist mit zwei Ray Acceleration Engines ausgestattet, was 16 RAs pro Shader Engine und 64 RAs insgesamt entspricht. Darüber hinaus enthält jede DCU vier Matrix Acceleration Engines, was 32 MAs pro Shader Engine und 128 MAs insgesamt entspricht. Shader Engines enthalten außerdem vier RB+-Blöcke, eine Rasterizer-Engine und einen Primitive Unit-Block. Das Chipdesign umfasst vier Abschnitte mit Infinity Caches der 3. Generation und vier 4×16-Bit-Speichercontroller, die rund um die Peripherie der GPU positioniert sind.

Im Zentrum des Chips befinden sich die L2-Caches, die zwei Geometry-Prozessoren, zwei Asynchronous Compute Engines (ACE) und jeweils einen Hardware Scheduler (HWS) und Direct Memory Access (DMA) umfassen. Die Konnektivität innerhalb der Architektur wird durch Infinity Fabric erreicht.

Die Zukunft des Path Tracing im Gaming mit AMD

Raytracing wird trotz seiner aktuellen Popularität im PC-Gaming oft als traditioneller Ansatz angesehen. Während es den visuellen Realismus durch die Simulation von Reflexionen, Schatten und Brechungen verbessert, ist eine neuere, ausgefeiltere Technik namens Path Tracing aufgetaucht, die insbesondere in High-End-Gaming-Szenarien an Bedeutung gewinnt. Path Tracing berechnet jeden möglichen Lichtweg für noch mehr Realismus.

Fortschritte bei der Path Tracing-Grafik

NVIDIA hat Path Tracing erfolgreich in grafisch anspruchsvollen Titeln wie Cyberpunk 2077 und Alan Wake II implementiert und dabei atemberaubende Bilder geboten. Möglich wurde dies durch fortschrittliche Techniken wie KI-gestütztes Upscaling und Framegenerierung sowie die Entwicklung einer neuen Ray-Rekonstruktionstechnologie, die herkömmliche In-Engine-Rauschunterdrücker ersetzt, indem sie auf KI und maschinellem Lernen basiert.

AMD richtet seine RDNA 4 Path Tracing-Funktionen an einer ähnlichen Strategie aus und setzt seine Technologien Neural Supersampling und Denoising ein, um eine verbesserte grafische Wiedergabetreue zu erreichen.

Verbesserte Medien- und Anzeigetechnologien

Im Hinblick auf die Medien- und Anzeigekomponenten hat AMD wesentliche Upgrades eingeführt, um die Leistung beim Spiele-Streaming und bei der Aufzeichnung zu verbessern:

  • Eine Verbesserung der AVC-Encodierungsqualität mit geringer Latenz um 25 %
  • 11 % Verbesserung der HEVC-Kodierungsqualität
  • Optimierte B-Frames für AV1-Kodierungseffizienz
  • Bis zu 30 % höhere Kodierungsleistung bei 720p
  • Kompatibilität mit FFMPEG, OBS und Handbrake
  • VCN-Videowiedergabe mit geringem Stromverbrauch, die eine Leistungssteigerung von 50 % für die Formate AV1 und VP9 bietet
Verbesserungen der Media Engine

Verbesserungen in der Displaytechnologie konzentrieren sich auf eine verbesserte FreeSync-Energieoptimierung, die den Stromverbrauch im Leerlauf bei Dual-Display-Konfigurationen deutlich reduziert. Darüber hinaus verlagert die Hardwareunterstützung für Frame Scheduling Aufgaben auf die GPU, sodass CPUs bei der Videowiedergabe Strom sparen können. Schließlich sorgt Radeon Image Sharpening 2 mit einem einzigen, unkomplizierten Schalter für eine hohe Bildqualität über alle APIs hinweg.

Upgrades für die Display-Engine

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert