NVIDIA 发布 Blackwell RTX:通过 RTX PRO 6000 展示神经渲染和游戏,并通过 MIG 运行四个《赛博朋克 2077》实例

NVIDIA 发布 Blackwell RTX:通过 RTX PRO 6000 展示神经渲染和游戏,并通过 MIG 运行四个《赛博朋克 2077》实例

NVIDIA 凭借其在神经渲染和游戏领域的最新进展,继续在科技行业掀起波澜,尤其是通过其 Blackwell RTX GPU 系列,其中包括 RTX 5090 和 RTX PRO 6000。

NVIDIA 在 2025 年 Hot Chips 大会上展示 Blackwell RTX 创新技术

Blackwell RTX 架构于 2023 年 1 月发布,其突破性功能主要聚焦于人工智能 (AI)。这项创新对 NVIDIA 来说并非新鲜事,其发展历程始于 2006 年 CUDA 的推出,标志着加速计算和 AI 领域的重大进步。

2006 年至 2025 年的 AI 发展时间表,重点介绍 NVIDIA 的关键创新和成就。

NVIDIA 声称,计算密度的进步已经超越了摩尔定律的扩展速度,这得益于稀疏性、新的指令集架构 (ISA) 和优化的低精度格式等技术。2018 年推出的实时光线追踪以及次年推出的 DLSS 代表了这一演进的关键里程碑。

NVIDIA Blackwell 架构图,其中详细说明了 GPU、CPU 和内存规格,以实现性能扩展。

这些创新是利用包括 RT 核心和 Tensor 核心在内的先进技术实现的,而 Blackwell 现在将这些功能提升到了一个新的水平。

RTX 生态系统框架采用 Blackwell 架构工具,用于 AI 和渲染增强。

在数据中心领域,NVIDIA 推出了 FP4 精度,为需要密集扩展的工作负载提供了 4 倍的性能提升。NVIDIA 首席执行官黄仁勋旨在重申 AI 在图形领域的关键地位,并通过 Blackwell RTX 推动神经渲染时代的到来。RTX 品牌象征着模拟、内容创作和游戏领域的创新,为将数据中心技术扩展到消费级 RTX GPU 铺平了道路。

神经渲染有望通过 AI 视觉效果、流畅的响应能力和自适应体验增强游戏体验。

那么,Blackwell 架构究竟有何贡献?它拥有 DLSS 4、MFG、ACE 和增强路径追踪等先进技术,旨在提升性能和视觉保真度。NVIDIA 声称,Blackwell RTX 可以实现“性能、占用空间和设计周期的 10 倍提升”。DLSS 4 策略性地利用 AI 在初始帧之后渲染 100% 的像素,最终缩短渲染时间并延长移动设备的电池续航时间。

RTX Blackwell芯片的设计原则是:优化神经工作负载、减少内存、提高效率。

RTX Blackwell GPU 的主要设计原则包括:

  • 针对新的神经工作负载进行优化
  • 最小化内存占用
  • 确保神经和图形任务的优质服务
  • 可扩展的能源效率
NVIDIA RTX Blackwell 芯片配备 AI、Tensor Cores、G7 内存和先进的渲染架构。

从技术层面来看,RTX Blackwell 堪称工程强者,提供每秒 4000 次 AI 万亿次运算 (TOPS) 和基于第五代 Tensor 核心的高速 FP4 支持。它凭借第四代 RT 核心,提供高达 360 次 RT TFLOP 的百万级几何运算能力,而 AI 管理流程 (AMP) 则能够有效地管理 AI 模型和图形处理。

用于神经着色器的 RTX Blackwell SM 架构图,具有着色器和张量核心。

RTX Blackwell 流式多处理器 (SM) 的架构与其数据中心版本有显著差异。一项显著的改进是整合了之前相互独立的 FP32 和 INT32 单元,从而提升了处理效率。

图表显示 RTX Blackwell SM 使用神经着色器和核心将着色器执行重新排序功能增强 2 倍。

此外,RTX Blackwell 增强了着色器执行重新排序 (SER),使着色器执行效率提高一倍。

Blackwell 第五代 Tensor Cores 配备 FP4,展示了比前代产品更高的吞吐量。

第五代 Tensor Core 引入了 FP4 支持,并在 DLSS 4 中包含 MFG 模式,允许 GPU 使用 AI 同时渲染四帧。

DLSS4 + RTX Blackwell 通过更快、更高效的帧渲染和 GPU 节能来提升游戏体验。

因此,结合 DLSS 4 和帧生成技术,可将核心轨道门控速度提升十倍,同时实现 DRAM 自刷新率提升百倍,从而显著缩短单帧渲染时间。移动平台的 GPU 功耗可降低高达两倍,从而大幅提升电池续航。

GDDR7 与 GDDR6x:新图形 DRAM 标准中增强的数据速率和效率。

GDDR7 的引入使 RTX Blackwell 能够实现高达 30 Gbps 的速度,相当于其前代 GDDR6 数据速率的两倍。这一全新内存标准进一步提升了移动平台的效率。

得益于 NVIDIA 的 AMP 单元,同时执行 AI 和图形工作负载成为现实,从而实现更流畅的帧传输和更快的模型响应。

RTX PRO 6000 概览显示通用 MIG 和 GPU 实例优化细节。

从游戏应用向专业用途转型,NVIDIA 在 RTX PRO 6000 中引入了 Universal MIG 等全新功能。这使得最多四个 RTX PRO GPU 实例(每个实例配备 24 GB VRAM)能够同时运行,并保持一致的延迟和吞吐量。

令人印象深刻的演示展示了 RTX PRO 6000 的功能,即在最高设置下以 1080p 运行四个 Cyber​​punk 2077 实例,对于这款强大的 GPU 来说,这是一项可完成的任务。

RTX PRO 6000 多租户缩放条形图,赛博朋克 2077 1080p 性能指标。

以标准时间片实例为基准,与 MIG 2x 和 4x 模式进行比较,可扩展性显著提升了 60%。RTX PRO 6000 Blackwell GPU 确实非常适合管理像 Cyber​​punk 2077 这样高要求应用程序的多个实例。

图表通过图像样本比较了 Blackwell FP4 的性能和 VRAM 使用情况。

总体而言,NVIDIA 的 Blackwell GPU 架构自发布以来取得了长足进步,并不断针对消费级和专业级应用进行改进。随着越来越多的游戏和内容创作工具开始融入 Blackwell 提供的广泛 AI 和神经增强功能,人们对该领域未来发展的期待显而易见。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注