深入了解 AMD RDNA 4 架构:新计算单元、增强型光线追踪核心、AI 功能和路径追踪功能

深入了解 AMD RDNA 4 架构:新计算单元、增强型光线追踪核心、AI 功能和路径追踪功能

AMD 正式推出了即将推出的 RDNA 4 GPU 架构的全面架构细节,该架构是专为 Radeon RX 9000 系列精心打造的。

推出 AMD RDNA 4:以游戏玩家为中心的 GPU 革命

继上一代RDNA 3 及其增强版 RDNA 3.5的成功之后,RDNA 4 架构在发烧友中引起了不小的轰动。尽管缺乏超发烧友型号,但 RDNA 4 架构引入了重大改进,专门用于增强游戏性能。

AMD RDNA 4 架构概述

最新架构有几个关键的增强功能:

  • 针对严苛的游戏场景进行强化优化
  • 增强光栅化和计算效率
  • 光线追踪性能取得重大进步
  • 全面的机器学习能力
  • 提高所有应用程序的带宽效率
  • 为游戏玩家和内容创作者量身定制的多媒体增强功能
AMD RDNA 4 架构改进

与 RDNA 2 相比,RDNA 4 GPU 的光栅化性能几乎提高了一倍,光线追踪能力提高了 2.5 倍,每个计算单元的机器学习工作负载提高了 3.5 倍。让我们深入研究一下 RDNA 4 的架构组件。

RDNA 4 的核心创新

RDNA 4 GPU 架构的核心是新的计算引擎。

RDNA 4 计算引擎

改进后的计算单元 (CU) 拥有双 SIMD32 矢量单元和增强的矩阵运算,可提供:

  • 提高了 2x-16b 和 4x-8b/4b 密集矩阵的速率
  • 结构化稀疏性达到 4:2 比例,性能提升超过 2 倍
  • 引入新的 8b 浮点数据类型
  • 具有转置功能的矩阵加载

RDNA 4 还包含大量着色改进,允许 RDNA 4 着色动态分配寄存器。这项创新使 CU 能够根据需要请求和释放寄存器,从而优化内存延迟并提高整体核心效率。

动态寄存器分配

标量单元增强功能引入了新的 Float32 操作以及改进的调度,其中包括分割屏障、加速溢出/填充过程和增强的指令预取功能。

RDNA 4 标量单元改进

值得注意的是,第三代光线追踪单元现在提供双倍的光线交叉率、增强的 BVH 压缩以及优化的光线遍历和着色。每个光线加速器都进行了升级:

  • 增加了箱体和三角形交叉单元
  • 硬件实例转换
  • 改进的光线追踪堆栈管理
  • 增强的 BVH8 和节点压缩
  • 定向边界框可提高效率
光线追踪改进光线追踪增强功能光线追踪架构创新光线追踪增强功能改进的射线处理

这些升级显著降低了 BVH 的内存消耗。RDNA 4 将平均内存需求降低至 RDNA 3 所需内存需求的 60% 以下,这主要归功于其创新的 8 宽结构。

此外,AMD 还引入了一种新方法,通过对每个框进行旋转编码来最大限度地降低遍历成本,从而实现更严格的几何边界。这种设计方法减少了遍历步骤和峰值,将性能效率显著提高了 10%。因此,在一致的时钟速度和带宽下,RDNA 4 的 CU 提供的光线遍历效率是 RDNA 3 的两倍。

升级后的命令处理器具有增强的数据包加速器,而缓存也有了显着改进。该架构现在包括高达 64 MB 的第三代 Infinity Cache、8 MB 的 L2 缓存和 2MB 的聚合 CU 缓存。RDNA 4 保留了 GDDR6 兼容性,但升级到更快的速度,最高可达 20.00 Gbps,256 位总线接口的最大容量为 16 GB。增强的内存压缩技术也减轻了带宽需求。

RDNA 4 内存架构

在人工智能领域,AMD 利用其第三代矩阵加速引擎,该引擎具有改进的张量速率、新的 8b 浮点数据类型、结构化稀疏性支持和机器学习增强的分辨率升级。

AI 和 ML 增强功能增强的张量支持机器学习加速图形人工智能驱动的图像处理

在标准条件下检查图像生成能力(SDXL 1.5)时,RDNA 4 CU 与 RDNA 3 相比表现出显著的 2 倍增强。

图像生成性能视觉渲染增强功能影像制作能力先进的视觉技术

媒体引擎过渡到双宽度格式,配备升级的编码/解码引擎,AVC 质量提升高达 25%,H.264 和 H.265 编码增强,AV1 吞吐量翻倍。该引擎还针对低延迟流媒体环境进行了优化。此外,Radiance 显示引擎现在可容纳 DisplayPort 2.1a 和 HDMI 2.1b 输出,以及更新的缩放和锐化机制。

探索 RDNA 4 GPU 架构:Navi 48 Die

RDNA 4 框图展示了完整的 Navi 48 GPU WeU,它基于台积电的 4nm 工艺节点构建,在 356.5 mm² 的芯片面积内容纳了约 539 亿个晶体管。该 GPU 架构完全符合 PCIe Gen5 标准。

让我们来分析一下 Navi 48 GPU(Radeon RX 9070 XT),它由四个着色器引擎组成,每个引擎都包含多个“双计算单元”而不是 WGP。每个双计算单元包含两个计算单元,因此每个着色器引擎配置八个 DCU 或 16 个 CU。这样芯片上总共有 32 个 DCU 或 64 个 CU,最终达到惊人的 4096 个流处理器或着色器单元。

Navi 48 GPU 架构

每个 DCU 配备两个射线加速器引擎,相当于每个着色器引擎有 16 个 RA,总共有 64 个 RA。此外,每个 DCU 还包含四个矩阵加速引擎,相当于每个着色器引擎有 32 个 MA,总共有 128 个 MA。着色器引擎还包含四个 RB+ 块、一个光栅化引擎和一个原始单元块。该芯片设计具有四个第三代无限缓存部分和四个 4×16 位内存控制器,位于 GPU 外围。

芯片的中心是 L2 缓存,其中包括两个几何处理器、两个异步计算引擎 (ACE),以及硬件调度程序 (HWS) 和直接内存访问 (DMA)。整个架构的连接是通过 Infinity Fabric 实现的。

AMD 游戏中路径追踪的未来

尽管光线追踪目前在 PC 游戏中非常流行,但它通常被视为一种传统方法。虽然它通过模拟反射、阴影和折射来增强视觉真实感,但一种名为“路径追踪”的更新更复杂的技术已经出现,尤其是在高端游戏场景中越来越受欢迎。路径追踪计算每条潜在的光线路径,以实现更高的真实感。

路径追踪图形的进步

NVIDIA 已成功在《赛博朋克 2077》和《心灵杀手 II》等图形密集型游戏中实现路径追踪,并展示了令人惊叹的视觉效果。这是通过 AI 辅助升级和帧生成等先进技术以及开发新的射线重建技术实现的,该技术依靠 AI 和机器学习取代了传统的引擎内降噪器。

AMD 正在将其 RDNA 4 路径追踪功能与类似的策略相结合,部署其神经超级采样和去噪技术来实现增强的图形保真度。

增强媒体和显示技术

针对媒体和显示组件,AMD 推出了重大升级,以提高游戏流媒体和录制性能:

  • AVC 低延迟编码质量提高 25%
  • HEVC 编码质量提升 11%
  • 优化 B 帧以提高 AV1 编码效率
  • 720p 编码性能提升高达 30%
  • 与 FFMPEG、OBS 和 Handbrake 兼容
  • VCN 低功耗视频播放,为 AV1 和 VP9 格式带来 50% 的性能提升
媒体引擎增强功能

显示技术的改进侧重于增强的 FreeSync 功耗优化,这显著降低了双显示器配置中的空闲功耗。此外,对帧调度的硬件支持将任务卸载到 GPU,使 CPU 在视频播放期间节省电量。最后,Radeon Image Sharpening 2 只需一个简单直接的切换即可确保所有 API 的高质量图像。

显示引擎升级

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注