
Firma AMD oficjalnie przedstawiła szczegółowe informacje na temat nadchodzącej architektury procesorów graficznych RDNA 4, która została starannie opracowana dla serii Radeon RX 9000.
Przedstawiamy AMD RDNA 4: rewolucję w dziedzinie GPU skupioną na graczach
Po sukcesie poprzedniego RDNA 3 i jego ulepszonego wariantu RDNA 3.5, architektura RDNA 4 wywołała spore emocje wśród entuzjastów. Choć brakuje jej modeli dla ultraentuzjastów, architektura RDNA 4 wprowadza znaczące usprawnienia ukierunkowane konkretnie na zwiększenie wydajności w grach.

Najnowsza architektura charakteryzuje się kilkoma kluczowymi udoskonaleniami:
- Intensywna optymalizacja pod kątem wymagających scenariuszy gier
- Ulepszona rasteryzacja i wydajność obliczeniowa
- Znaczne postępy w wydajności śledzenia promieni
- Kompleksowe możliwości uczenia maszynowego
- Poprawiona efektywność wykorzystania przepustowości we wszystkich aplikacjach
- Udoskonalenia multimedialne dostosowane do graczy i twórców treści

W porównaniu do RDNA 2, procesory graficzne RDNA 4 zapewniają niemal dwukrotnie większą wydajność rasteryzacji, do 2, 5 razy lepsze możliwości śledzenia promieni i uderzającą 3, 5-krotną poprawę obciążeń uczenia maszynowego na jednostkę obliczeniową. Przyjrzyjmy się bliżej komponentom architektonicznym, które składają się na RDNA 4.
Główne innowacje w RDNA 4
Sercem architektury GPU RDNA 4 jest nowy silnik obliczeniowy.

Zmodernizowane jednostki obliczeniowe (CU) charakteryzują się podwójnymi jednostkami wektorowymi SIMD32 i ulepszonymi operacjami macierzowymi, oferując:
- Zwiększone stawki dla gęstych macierzy 2x-16b i 4x-8b/4b
- Ustrukturyzowana rzadkość w stosunku 4:2 zapewniająca ponad dwukrotną poprawę
- Wprowadzenie nowych typów danych zmiennoprzecinkowych 8b
- Ładowanie macierzy z możliwością transpozycji
RDNA 4 obejmuje również znaczące ulepszenia cieniowania, umożliwiając cieniom RDNA 4 dynamiczne przydzielanie rejestrów. Ta innowacja umożliwia CU żądanie i zwalnianie rejestrów w razie potrzeby, optymalizując w ten sposób opóźnienie pamięci i zwiększając ogólną wydajność rdzenia.

Udoskonalenia jednostek skalarnych wprowadzają nowe operacje Float32 wraz z ulepszonym harmonogramowaniem, które obejmuje bariery podziału, przyspieszone procesy przelewania/napełniania i ulepszone możliwości wstępnego pobierania instrukcji.

Co istotne, jednostki ray tracingu trzeciej generacji oferują teraz podwojone współczynniki przecięcia promieni, ulepszoną kompresję BVH oraz zoptymalizowane przechodzenie i cieniowanie promieni. Każdy akcelerator promieni został ulepszony o:
- Zwiększone jednostki przecięcia pól i trójkątów
- Transformacje instancji sprzętowych
- Ulepszone zarządzanie stosem śledzenia promieni
- Ulepszona kompresja BVH8 i węzłów
- Zorientowane pola ograniczające dla zwiększenia wydajności





Ulepszenia te skutkują znacząco niższym zużyciem pamięci przez BVH. RDNA 4 osiąga średnią redukcję zapotrzebowania na pamięć do poniżej 60% tego, co było konieczne w przypadku RDNA 3, głównie dzięki swojej innowacyjnej strukturze 8-szerokiej.
Ponadto AMD wprowadziło nową metodę minimalizacji kosztów przechodzenia przez kodowanie obrotów dla każdego pola, co pozwala na ściślejsze ograniczenie geometrii. To podejście projektowe zmniejsza kroki i szczyty przechodzenia, zwiększając wydajność znacznie o 10%.W rezultacie jednostki CU RDNA 4 zapewniają dwukrotnie większą skuteczność przechodzenia przez promienie w porównaniu z RDNA 3 przy stałych prędkościach zegara i przepustowości.
Ulepszony procesor poleceń zawiera ulepszone akceleratory pakietów, a pamięć podręczna została znacznie ulepszona. Architektura obejmuje teraz do 64 MB pamięci podręcznej Infinity Cache 3.generacji, 8 MB pamięci podręcznej L2 i 2 MB łącznej pamięci podręcznej CU. RDNA 4 zachowuje zgodność z GDDR6, ale z ulepszeniem do szybszych prędkości sięgających do 20, 00 Gb/s i maksymalnej pojemności 16 GB w interfejsie magistrali 256-bitowej. Ulepszone techniki kompresji pamięci również zmniejszają zapotrzebowanie na przepustowość.

W dziedzinie sztucznej inteligencji firma AMD wykorzystuje silnik Matrix Acceleration trzeciej generacji, który charakteryzuje się ulepszonymi współczynnikami tensorów, nowymi typami danych zmiennoprzecinkowych 8b, obsługą strukturalnej rzadkości oraz skalowaniem rozdzielczości wspomaganym uczeniem maszynowym.




Podczas badania możliwości generowania obrazu (SDXL 1.5) w warunkach znormalizowanych, jednostki CU RDNA 4 wykazują znaczną, dwukrotną poprawę w porównaniu z RDNA 3.




Media Engine przechodzi na format o podwójnej szerokości, wyposażony w ulepszone silniki kodowania/dekodowania, co skutkuje poprawą jakości do 25% w AVC, ulepszeniami kodowania H.264 i H.265 oraz podwojeniem przepustowości AV1. Silnik ten jest również zoptymalizowany pod kątem środowisk przesyłania strumieniowego o niskim opóźnieniu. Ponadto Radiance Display Engine obsługuje teraz wyjścia DisplayPort 2.1a i HDMI 2.1b, a także odświeżony mechanizm skalowania i wyostrzania.
Odkrywanie architektury GPU RDNA 4: układ Navi 48
Schemat blokowy RDNA 4 prezentuje pełną Navi 48 GPU WeU, która jest zbudowana na węźle procesowym 4 nm TSMC, mieszczącym około 53, 9 miliarda tranzystorów w obszarze chipa 356, 5 mm². Ta architektura GPU jest w pełni zgodna ze standardami PCIe Gen5.
Przyjrzyjmy się bliżej procesorowi graficznemu Navi 48 (Radeon RX 9070 XT), składającemu się z czterech silników shaderów, z których każdy zawiera wiele „Dual Compute Units” zamiast WGP. Każda jednostka Dual Compute Unit zawiera dwie jednostki Compute Units, co prowadzi do konfiguracji ośmiu DCU lub 16 CU na silnik shaderów.Łącznie daje to 32 DCU lub 64 CU na chipie, co daje oszałamiającą liczbę 4096 procesorów strumieniowych lub jednostek shaderów.

Każda jednostka DCU jest wyposażona w dwa silniki akceleratora promieni, co przekłada się na 16 RA na Shader Engine i łącznie 64 RA. Ponadto każda jednostka DCU zawiera cztery silniki akceleratora Matrix, co daje 32 MA na Shader Engine i łącznie 128 MA. Silniki Shader zawierają również cztery bloki RB+, silnik rasteryzatora i blok jednostki pierwotnej. Projekt układu obejmuje cztery sekcje pamięci podręcznej Infinity 3.generacji i cztery kontrolery pamięci 4×16-bitowej rozmieszczone na obwodzie GPU.
W centrum układu znajdują się pamięci podręczne L2, które obejmują dwa procesory Geometry, dwa Asynchronous Compute Engines (ACE) oraz po jednym Hardware Scheduler (HWS) i Direct Memory Access (DMA).Łączność w całej architekturze jest osiągana poprzez Infinity Fabric.
Przyszłość śledzenia ścieżki w grach z AMD
Ray tracing, pomimo swojej obecnej popularności w grach komputerowych, jest często postrzegany jako tradycyjne podejście. Podczas gdy zwiększa realizm wizualny poprzez symulację odbić, cieni i załamań, pojawiła się nowsza, bardziej wyrafinowana technika zwana Path Tracing, zyskująca popularność zwłaszcza w scenariuszach gier high-end. Path Tracing oblicza każdą potencjalną ścieżkę światła dla jeszcze większego realizmu.

NVIDIA pomyślnie wdrożyła Path Tracing w tytułach o dużej intensywności graficznej, takich jak Cyberpunk 2077 i Alan Wake II, prezentując oszałamiające efekty wizualne. Stało się to możliwe dzięki zaawansowanym technikom, takim jak wspomagane przez AI skalowanie w górę i generowanie klatek, a także dzięki opracowaniu nowej technologii rekonstrukcji promieni, która zastępuje tradycyjne odszumiacze w silniku, polegając na AI i uczeniu maszynowym.
AMD dostosowuje swoje możliwości RDNA 4 Path Tracing do podobnej strategii, wdrażając technologie Neural Supersampling i Denoising w celu osiągnięcia lepszej wierności graficznej.
Udoskonalone technologie multimedialne i wyświetlania
W zakresie komponentów multimedialnych i wyświetlacza firma AMD wprowadziła znaczące udoskonalenia mające na celu zwiększenie wydajności przesyłania strumieniowego i nagrywania gier:
- Poprawa jakości kodowania AVC o niskim opóźnieniu o 25%
- 11% poprawa jakości kodowania HEVC
- Zoptymalizowane klatki B dla wydajności kodowania AV1
- Do 30% większa wydajność kodowania przy rozdzielczości 720p
- Zgodność z FFMPEG, OBS i Handbrake
- Odtwarzanie wideo VCN o niskim poborze mocy, zapewniające 50% wzrost wydajności w przypadku formatów AV1 i VP9

Ulepszenia w technologii wyświetlania koncentrują się na ulepszonej optymalizacji zasilania FreeSync, która znacznie zmniejsza bezczynne zużycie energii w konfiguracjach z dwoma wyświetlaczami. Ponadto sprzętowe wsparcie dla harmonogramowania klatek odciąża zadania procesora graficznego, umożliwiając procesorom oszczędzanie energii podczas odtwarzania wideo. Na koniec, Radeon Image Sharpening 2 zapewnia wysokiej jakości obrazy we wszystkich interfejsach API za pomocą pojedynczego, prostego przełącznika.

Dodaj komentarz ▼