深入了解 AMD RDNA 4 架構：新計算單元、增強型光線追蹤核心、AI 功能和路徑追蹤功能

AMD 正式推出了即將推出的 RDNA 4 GPU 架構的全面架構細節，該架構是專為 Radeon RX 9000 系列精心打造的。

推出 AMD RDNA 4：以遊戲玩家為中心的 GPU 革命

繼上一代RDNA 3 及其增強型 RDNA 3.5 變異體取得成功後，RDNA 4 架構在發燒友中引起了相當大的興奮。儘管缺乏超級發燒友型號，但 RDNA 4 架構引入了重大改進，專門旨在提高遊戲效能。

最新架構有幾個關鍵的增強功能：

針對嚴苛的遊戲場景進行強化最佳化
增強光柵化和計算效率
光線追蹤效能有重大進步
全面的機器學習能力
提高所有應用程式的頻寬效率
為遊戲玩家和內容創作者量身打造的多媒體增強功能

與 RDNA 2 相比，RDNA 4 GPU 的光柵化效能提高了近兩倍，光線追蹤能力提高了 2.5 倍，每個運算單元的機器學習工作負載提高了 3.5 倍。讓我們深入研究構成 RDNA 4 的架構組件。

RDNA 4 的核心創新

RDNA 4 GPU 架構的核心是新的運算引擎。

改進後的計算單元 (CU) 擁有雙 SIMD32 向量單元和增強的矩陣運算，可提供：

提高了 2x-16b 和 4x-8b/4b 密集矩陣的速率
結構化稀疏度達 4:2 比例，效能提升超過 2 倍
引進新的 8b 浮點數資料型別
具有轉置功能的矩陣加載

RDNA 4 還包括大量的著色改進，允許 RDNA 4 著色動態分配暫存器。此項創新使 CU 能夠根據需要請求和釋放暫存器，從而優化記憶體延遲並提高整體核心效率。

標量單元增強功能引入了新的 Float32 操作以及改進的調度，其中包括分割屏障、加速溢出/填充過程和增強的指令預取功能。

值得注意的是，第三代光線追蹤單元現在提供雙倍的光線交叉率、增強的 BVH 壓縮以及優化的光線遍歷和著色。每個射線加速器均已升級：

增加了箱體和三角形交叉單元
硬體實例轉換
改進的光線追蹤堆疊管理
增強的 BVH8 和節點壓縮
定向邊界框可提高效率

這些升級大大降低了 BVH 的記憶體消耗。 RDNA 4 將平均記憶體需求減少到 RDNA 3 所需記憶體需求的 60% 以下，這主要歸功於其創新的 8 寬結構。

此外，AMD 還引入了一種新方法，透過對每個盒子的旋轉進行編碼來最大限度地降低遍歷成本，從而實現更緊密的幾何邊界。這種設計方式減少了遍歷步數和峰值，效能效率大幅提升10%。因此，在一致的時脈速度和頻寬下，RDNA 4 的 CU 提供比 RDNA 3 兩倍的光線遍歷效率。

升級後的命令處理器具有增強的資料包加速器，而快取也有了顯著的改進。該架構現在包括高達 64 MB 的第三代 Infinity Cache、8 MB 的 L2 快取和 2MB 的聚合 CU 快取。 RDNA 4 保留了 GDDR6 相容性，但升級到更快的速度，高達 20.00 Gbps，256 位元匯流排介面的最大容量為 16 GB。增強的記憶體壓縮技術也減輕了頻寬需求。

在人工智慧領域，AMD 利用其第三代矩陣加速引擎，該引擎具有改進的張量速率、新的 8b 浮點資料類型、結構化稀疏性支援和機器學習增強的分辨率升級。

在標準條件下檢查影像生成能力（SDXL 1.5）時，RDNA 4 CU 與 RDNA 3 相比表現出顯著的 2 倍增強。

媒體引擎轉換為雙寬度格式，配備升級的編碼/解碼引擎，從而使 AVC 的品質提高高達 25%，H.264 和 H.265 編碼得到增強，AV1 吞吐量增加了一倍。該引擎還針對低延遲串流媒體環境進行了最佳化。此外，Radiance 顯示引擎現在可容納 DisplayPort 2.1a 和 HDMI 2.1b 輸出，以及更新的縮放和銳利化機制。

探索 RDNA 4 GPU 架構：Navi 48 Die

RDNA 4 框圖展示了完整的 Navi 48 GPU WeU，它基於台積電的 4nm 製程節點構建，在 356.5 平方毫米的晶片面積內容納了約 539 億個電晶體。此 GPU 架構完全符合 PCIe Gen5 標準。

讓我們來剖析 Navi 48 GPU（Radeon RX 9070 XT），它由四個著色器引擎組成，每個引擎都包含多個「雙運算單元」而不是 WGP。每個雙重運算單元包含兩個計算單元，因此每個著色器引擎配置 8 個 DCU 或 16 個 CU。該晶片上總共有 32 個 DCU 或 64 個 CU，最終形成了驚人的 4096 個流處理器或著色器單元。

每個 DCU 配備兩個射線加速器引擎，每個著色器引擎有 16 個 RA，總共有 64 個 RA。此外，每個 DCU 都包含四個矩陣加速引擎，每個著色器引擎有 32 個 MA，總共有 128 個 MA。著色器引擎還包含四個 RB+ 區塊、一個光柵化引擎和一個原始單元區塊。晶片設計具有四部分第三代無限快取和四個 4×16 位元記憶體控制器，位於 GPU 外圍。

晶片的中心是 L2 緩存，它包含兩個幾何處理器、兩個非同步計算引擎 (ACE)、一個硬體調度程式 (HWS) 和一個直接記憶體存取 (DMA)。跨架構的連接是透過 Infinity Fabric 實現的。