
NVIDIA 凭借其在神经渲染和游戏领域的最新进展,继续在科技行业掀起波澜,尤其是通过其 Blackwell RTX GPU 系列,其中包括 RTX 5090 和 RTX PRO 6000。
NVIDIA 在 2025 年 Hot Chips 大会上展示 Blackwell RTX 创新技术
Blackwell RTX 架构于 2023 年 1 月发布,其突破性功能主要聚焦于人工智能 (AI)。这项创新对 NVIDIA 来说并非新鲜事,其发展历程始于 2006 年 CUDA 的推出,标志着加速计算和 AI 领域的重大进步。

NVIDIA 声称,计算密度的进步已经超越了摩尔定律的扩展速度,这得益于稀疏性、新的指令集架构 (ISA) 和优化的低精度格式等技术。2018 年推出的实时光线追踪以及次年推出的 DLSS 代表了这一演进的关键里程碑。

这些创新是利用包括 RT 核心和 Tensor 核心在内的先进技术实现的,而 Blackwell 现在将这些功能提升到了一个新的水平。

在数据中心领域,NVIDIA 推出了 FP4 精度,为需要密集扩展的工作负载提供了 4 倍的性能提升。NVIDIA 首席执行官黄仁勋旨在重申 AI 在图形领域的关键地位,并通过 Blackwell RTX 推动神经渲染时代的到来。RTX 品牌象征着模拟、内容创作和游戏领域的创新,为将数据中心技术扩展到消费级 RTX GPU 铺平了道路。

那么,Blackwell 架构究竟有何贡献?它拥有 DLSS 4、MFG、ACE 和增强路径追踪等先进技术,旨在提升性能和视觉保真度。NVIDIA 声称,Blackwell RTX 可以实现“性能、占用空间和设计周期的 10 倍提升”。DLSS 4 策略性地利用 AI 在初始帧之后渲染 100% 的像素,最终缩短渲染时间并延长移动设备的电池续航时间。

RTX Blackwell GPU 的主要设计原则包括:
- 针对新的神经工作负载进行优化
- 最小化内存占用
- 确保神经和图形任务的优质服务
- 可扩展的能源效率

从技术层面来看,RTX Blackwell 堪称工程强者,提供每秒 4000 次 AI 万亿次运算 (TOPS) 和基于第五代 Tensor 核心的高速 FP4 支持。它凭借第四代 RT 核心,提供高达 360 次 RT TFLOP 的百万级几何运算能力,而 AI 管理流程 (AMP) 则能够有效地管理 AI 模型和图形处理。

RTX Blackwell 流式多处理器 (SM) 的架构与其数据中心版本有显著差异。一项显著的改进是整合了之前相互独立的 FP32 和 INT32 单元,从而提升了处理效率。

此外,RTX Blackwell 增强了着色器执行重新排序 (SER),使着色器执行效率提高一倍。

第五代 Tensor Core 引入了 FP4 支持,并在 DLSS 4 中包含 MFG 模式,允许 GPU 使用 AI 同时渲染四帧。

因此,结合 DLSS 4 和帧生成技术,可将核心轨道门控速度提升十倍,同时实现 DRAM 自刷新率提升百倍,从而显著缩短单帧渲染时间。移动平台的 GPU 功耗可降低高达两倍,从而大幅提升电池续航。

GDDR7 的引入使 RTX Blackwell 能够实现高达 30 Gbps 的速度,相当于其前代 GDDR6 数据速率的两倍。这一全新内存标准进一步提升了移动平台的效率。
得益于 NVIDIA 的 AMP 单元,同时执行 AI 和图形工作负载成为现实,从而实现更流畅的帧传输和更快的模型响应。

从游戏应用向专业用途转型,NVIDIA 在 RTX PRO 6000 中引入了 Universal MIG 等全新功能。这使得最多四个 RTX PRO GPU 实例(每个实例配备 24 GB VRAM)能够同时运行,并保持一致的延迟和吞吐量。
令人印象深刻的演示展示了 RTX PRO 6000 的功能,即在最高设置下以 1080p 运行四个 Cyberpunk 2077 实例,对于这款强大的 GPU 来说,这是一项可完成的任务。

以标准时间片实例为基准,与 MIG 2x 和 4x 模式进行比较,可扩展性显著提升了 60%。RTX PRO 6000 Blackwell GPU 确实非常适合管理像 Cyberpunk 2077 这样高要求应用程序的多个实例。

总体而言,NVIDIA 的 Blackwell GPU 架构自发布以来取得了长足进步,并不断针对消费级和专业级应用进行改进。随着越来越多的游戏和内容创作工具开始融入 Blackwell 提供的广泛 AI 和神经增强功能,人们对该领域未来发展的期待显而易见。
发表回复