深入了解 AMD RDNA 4 架構:新計算單元、增強型光線追蹤核心、AI 功能和路徑追蹤功能

深入了解 AMD RDNA 4 架構:新計算單元、增強型光線追蹤核心、AI 功能和路徑追蹤功能

AMD 正式推出了即將推出的 RDNA 4 GPU 架構的全面架構細節,該架構是專為 Radeon RX 9000 系列精心打造的。

推出 AMD RDNA 4:以遊戲玩家為中心的 GPU 革命

繼上一代RDNA 3 及其增強型 RDNA 3.5 變異體取得成功後,RDNA 4 架構在發燒友中引起了相當大的興奮。儘管缺乏超級發燒友型號,但 RDNA 4 架構引入了重大改進,專門旨在提高遊戲效能。

AMD RDNA 4 架構概述

最新架構有幾個關鍵的增強功能:

  • 針對嚴苛的遊戲場景進行強化最佳化
  • 增強光柵化和計算效率
  • 光線追蹤效能有重大進步
  • 全面的機器學習能力
  • 提高所有應用程式的頻寬效率
  • 為遊戲玩家和內容創作者量身打造的多媒體增強功能
AMD RDNA 4 架構改進

與 RDNA 2 相比,RDNA 4 GPU 的光柵化效能提高了近兩倍,光線追蹤能力提高了 2.5 倍,每個運算單元的機器學習工作負載提高了 3.5 倍。讓我們深入研究構成 RDNA 4 的架構組件。

RDNA 4 的核心創新

RDNA 4 GPU 架構的核心是新的運算引擎。

RDNA 4 計算引擎

改進後的計算單元 (CU) 擁有雙 SIMD32 向量單元和增強的矩陣運算,可提供:

  • 提高了 2x-16b 和 4x-8b/4b 密集矩陣的速率
  • 結構化稀疏度達 4:2 比例,效能提升超過 2 倍
  • 引進新的 8b 浮點數資料型別
  • 具有轉置功能的矩陣加載

RDNA 4 還包括大量的著色改進,允許 RDNA 4 著色動態分配暫存器。此項創新使 CU 能夠根據需要請求和釋放暫存器,從而優化記憶體延遲並提高整體核心效率。

動態暫存器分配

標量單元增強功能引入了新的 Float32 操作以及改進的調度,其中包括分割屏障、加速溢出/填充過程和增強的指令預取功能。

RDNA 4 標量單元改進

值得注意的是,第三代光線追蹤單元現在提供雙倍的光線交叉率、增強的 BVH 壓縮以及優化的光線遍歷和著色。每個射線加速器均已升級:

  • 增加了箱體和三角形交叉單元
  • 硬體實例轉換
  • 改進的光線追蹤堆疊管理
  • 增強的 BVH8 和節點壓縮
  • 定向邊界框可提高效率
光線追蹤改進光線追蹤增強功能光線追蹤架構創新光線追蹤增強功能改進的射線處理

這些升級大大降低了 BVH 的記憶體消耗。 RDNA 4 將平均記憶體需求減少到 RDNA 3 所需記憶體需求的 60% 以下,這主要歸功於其創新的 8 寬結構。

此外,AMD 還引入了一種新方法,透過對每個盒子的旋轉進行編碼來最大限度地降低遍歷成本,從而實現更緊密的幾何邊界。這種設計方式減少了遍歷步數和峰值,效能效率大幅提升10%。因此,在一致的時脈速度和頻寬下,RDNA 4 的 CU 提供比 RDNA 3 兩倍的光線遍歷效率。

升級後的命令處理器具有增強的資料包加速器,而快取也有了顯著的改進。該架構現在包括高達 64 MB 的第三代 Infinity Cache、8 MB 的 L2 快取和 2MB 的聚合 CU 快取。 RDNA 4 保留了 GDDR6 相容性,但升級到更快的速度,高達 20.00 Gbps,256 位元匯流排介面的最​​大容量為 16 GB。增強的記憶體壓縮技術也減輕了頻寬需求。

RDNA 4 記憶體架構

在人工智慧領域,AMD 利用其第三代矩陣加速引擎,該引擎具有改進的張量速率、新的 8b 浮點資料類型、結構化稀疏性支援和機器學習增強的分辨率升級。

AI 和 ML 增強功能增強的張量支持機器學習加速圖形人工智慧驅動的影像處理

在標準條件下檢查影像生成能力(SDXL 1.5)時,RDNA 4 CU 與 RDNA 3 相比表現出顯著的 2 倍增強。

影像生成性能視覺渲染增強功能影像製作能力先進的視覺技術

媒體引擎轉換為雙寬度格式,配備升級的編碼/解碼引擎,從而使 AVC 的品質提高高達 25%,H.264 和 H.265 編碼得到增強,AV1 吞吐量增加了一倍。該引擎還針對低延遲串流媒體環境進行了最佳化。此外,Radiance 顯示引擎現在可容納 DisplayPort 2.1a 和 HDMI 2.1b 輸出,以及更新的縮放和銳利化機制。

探索 RDNA 4 GPU 架構:Navi 48 Die

RDNA 4 框圖展示了完整的 Navi 48 GPU WeU,它基於台積電的 4nm 製程節點構建,在 356.5 平方毫米的晶片面積內容納了約 539 億個電晶體。此 GPU 架構完全符合 PCIe Gen5 標準。

讓我們來剖析 Navi 48 GPU(Radeon RX 9070 XT),它由四個著色器引擎組成,每個引擎都包含多個「雙運算單元」而不是 WGP。每個雙重運算單元包含兩個計算單元,因此每個著色器引擎配置 8 個 DCU 或 16 個 CU。該晶片上總共有 32 個 DCU 或 64 個 CU,最終形成了驚人的 4096 個流處理器或著色器單元。

Navi 48 GPU 架構

每個 DCU 配備兩個射線加速器引擎,每個著色器引擎有 16 個 RA,總共有 64 個 RA。此外,每個 DCU 都包含四個矩陣加速引擎,每個著色器引擎有 32 個 MA,總共有 128 個 MA。著色器引擎還包含四個 RB+ 區塊、一個光柵化引擎和一個原始單元區塊。晶片設計具有四部分第三代無限快取和四個 4×16 位元記憶體控制器,位於 GPU 外圍。

晶片的中心是 L2 緩存,它包含兩個幾何處理器、兩個非同步計算引擎 (ACE)、一個硬體調度程式 (HWS) 和一個直接記憶體存取 (DMA)。跨架構的連接是透過 Infinity Fabric 實現的。

AMD 遊戲中路徑追蹤的未來

儘管光線追蹤目前在電腦遊戲中非常流行,但人們通常將其視為傳統方法。雖然它透過模擬反射、陰影和折射來增強視覺真實感,但一種名為路徑追蹤的更新、更複雜的技術已經出現,並在高階遊戲場景中越來越受歡迎。路徑追蹤計算光的每條潛在路徑,以實現更高的真實感。

路徑追蹤圖形的進步

NVIDIA 已成功在《Cyber​​punk 2077》和《心靈殺手 II》等圖形密集型遊戲中實現路徑追踪,展示了令人驚嘆的視覺效果。這是透過人工智慧輔助升級和幀生成等先進技術實現的,同時開發了新的射線重建技術,該技術依靠人工智慧和機器學習取代了傳統的引擎內降噪器。

AMD 正在將其 RDNA 4 路徑追蹤功能與類似的策略相結合,部署其神經超級取樣和去噪技術來實現增強的圖形保真度。

增強媒體和顯示技術

針對媒體和顯示組件,AMD 推出了重大升級,以提高遊​​戲串流媒體和錄製效能:

  • AVC 低延遲編碼品質提升 25%
  • HEVC 編碼品質提升 11%
  • 優化 B 幀以提高 AV1 編碼效率
  • 720p 編碼效能提升高達 30%
  • 與 FFMPEG、OBS 和 Handbrake 相容
  • VCN 低功耗影片播放,為 AV1 和 VP9 格式帶來 50% 的效能提升
媒體引擎增強功能

顯示技術的改進重點是增強 FreeSync 電源優化,這顯著降低了雙顯示配置中的空閒功耗。此外,對幀調度的硬體支援將任務卸載到 GPU,從而使 CPU 在視訊播放期間節省電量。最後,Radeon Image Sharpening 2 只需簡單、直接的切換即可確保所有 API 的高品質影像。

顯示引擎升級

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *