在 CES 2025 上,NVIDIA 深入介绍了其下一代 Blackwell GPU 架构,该架构将为即将推出的 RTX 50 游戏显卡提供支持。与之前的 Ada 架构相比,这种创新设计有望实现重大改进,为游戏玩家和内容创作者提升性能、效率和图形功能。
探索 NVIDIA GeForce RTX 50 “Blackwell”GPU 架构
Blackwell 架构专为高要求的游戏环境和创意应用量身定制,具有突破性的组件,可实现卓越的性能。RTX 50 系列预计将于本月晚些时候推出,该系列采用台积电 4nm 工艺节点打造的架构。这款尖端 GPU 设计集成了令人印象深刻的 920 亿个晶体管,可提供高达 4000 AI TOPS、380 RT TFLOP 和 125 TFLOPS 的 FP32 计算能力。此外,它还拥有最快的 GDDR7 内存接口,带宽高达 1.8 TB/s,所有这些都融入了重新设计的 Founders Edition 美学之中。
Blackwell 架构的深入概述
NVIDIA 的 Blackwell 架构旨在通过专注于先进的神经功能和工作负载来提升下一代游戏的图形能力。这包括大幅减少内存占用、提高能源效率和创新的服务质量功能。主要增强功能包括:
- 推出第五代 Tensor Cores,提供高达 4000 AI TOPS 的高速 FP4 计算。
- 第四代光线追踪 (RT) 核心具有惊人的 360 RT TFLOP,专为 Mega Geometry 设计。
- 下一代 AI 管理处理器,可无缝地同时执行 AI 模型和图形工作负载。
- 全新 Blackwell 流多处理器 (SM) 可实现 125 TFLOPS 的峰值 FP32 计算能力。
- 纳入 GDDR7 内存,在 RTX 5080 上提供迄今为止最快的速度,高达 30 Gbps。
RTX Blackwell 架构的其他功能包括 DisplayPort 2.1、PCIe Gen5 兼容性以及具有增强色彩深度的 4K NVDEC/NVENC 功能。
性能增强和技术进步
将 Blackwell 的流式多处理器 (SM) 与 Ada 架构的处理器进行比较,可以明显看出 NVIDIA 有效地将 INT32 GPU 吞吐量提高了一倍,从而提高了工作图和着色器执行等工作负载的性能。新架构还允许更高效地执行多个工作负载,从而显著提高了着色器执行重新排序 (SER) 的性能,提高了两倍。
此外,GDDR7 在性能上超越了旧款 GDDR6/X 内存,提供两倍的带宽和数据速率,同时更加节能。这项创新的内存技术支持 PAM4 信号,使 RTX 50 系列成为首个能够充分利用 GDDR7 和 PCIe 5.0 的架构。
先进的光线追踪技术
架构上的进步也延伸到了光线追踪。第四代 RT 核心的推出采用了三角簇相交引擎,专门针对超大几何处理进行了优化。此次升级允许更好地处理复杂场景,同时保持较低的内存占用。
此外,创新的 Mega Geometry 引擎采用了三角形簇压缩格式,可有效管理大量光线追踪任务所需的数据。这可实现 8 倍的光线三角形交叉率,同时最大限度地减少内存使用率。
Blackwell 第五代 Tensor Cores 引入 FP4 格式,吞吐量大幅提升,性能比 Pascal GPU 提升 32 倍,比 Ada 代 GPU 提升 2 倍。此增强功能支持下一代游戏中使用的高级神经着色技术。
创新调度和电源管理
Blackwell 架构中的一个重要引入是可编程协处理器,称为 Amp。该组件促进了各个 GPU 核心之间的高效交互和工作负载分配,从而确保了最佳性能。
Blackwell 还采用了先进的电源管理模式,允许 GPU 的时钟树在空闲状态下禁用。此功能可显著节省电量,尤其有利于“Max-Q”系列等移动设计。该架构通过允许内核和内存系统以不同电压运行的辅助电源轨来提高性能,同时优化功耗。
此外,Blackwell 的频率响应能力提高了 1000 倍,能够根据工作负载类型高效分配频率。与 Ada GPU 相比,时钟频率提高了 300 MHz。
显示和视频功能
Blackwell 架构还增强了显示和视频处理能力。它引入了对 DisplayPort 2.1b 的支持,通过先进的硬件翻转测光技术增强了帧传输。该架构包括第 9 代编码器和第 6 代解码器,与 AV1 和 HEVC 等先进编解码器兼容,确保顶级视频质量和性能。
DLSS 的进步:DLSS 4
DLSS 4 继续推动深度学习技术的演进,自 2018 年诞生以来取得了重大飞跃。此次迭代中,NVIDIA 利用先进的超级计算机不断增强 DLSS 模型,从而大幅提高图像质量和响应能力。
借助 DLSS 4,NVIDIA 过渡到强大的新神经架构,并配备了能够更有效地处理多个数据集的转换引擎。新的多帧生成 (MFG) 模式允许每帧生成最多五个模型,从而显著提高渲染质量。
这种突破性的方法为 DLSS 4 奠定了基础,最初支持 75 款游戏,这是同时推出的最大 DLSS 增强游戏库。已经使用 DLSS 3 或 3.5 的开发人员会发现集成非常简单,确保对新游戏和现有游戏系列提供强大的支持。
使用 Reflex 2 减少延迟
NVIDIA 的 Reflex 2 技术旨在提高游戏玩家的响应能力,尤其是在竞争环境中。通过利用 Frame Warp 技术,Reflex 2 可将系统延迟降低 75%,从而增强整体游戏体验。
这项增强功能可在帧渲染之前实时采样鼠标位置,从而显著优化响应能力。Reflex 2 将原生支持各种高性能游戏,确保所有 RTX GPU 用户都能从这项改进中受益。
利用 RTX AI 革新游戏
NVIDIA 的 Blackwell 架构强调了游戏中 AI 的集成。通过与 Microsoft 合作以访问 DirectX 的神经渲染功能,NVIDIA 将从 RTX 50 GPU 中释放出无与伦比的性能。创新包括神经着色器和高级材料处理,有望实现从传统图形到 AI 驱动图形的变革性转变。
通过神经辐射缓存 (NRC) 和 RTX Mega Geometry 等新技术,NVIDIA 重新定义了光线与场景中物体的交互方式,在游戏环境中提供无与伦比的真实感和互动性。引入用于角色渲染的 AI 增强功能进一步彰显了为虚拟世界带来逼真细节的承诺。
Blackwell 的能力将提升游戏的未来,其神经材料和照明优化方面的先进应用将大幅提高视觉保真度和效率。随着 NVIDIA 不断前进,游戏社区可以期待图形性能和 AI 集成方面取得前所未有的进步。
发表回复