NVIDIA Blackwell Ultra“GB300” GPU:推出最快的 AI 芯片,配备双分划板、20000+ 核心、288 GB HBM3e 内存,速度达 8 TB/s,比 GB200 快 50%

NVIDIA Blackwell Ultra“GB300” GPU:推出最快的 AI 芯片,配备双分划板、20000+ 核心、288 GB HBM3e 内存,速度达 8 TB/s,比 GB200 快 50%

NVIDIA 发布了其尖端 AI 芯片 Blackwell Ultra GB300,其性能比其前代产品 GB200 提高了 50%,并且拥有令人印象深刻的 288 GB 内存。

NVIDIA Blackwell Ultra“GB300” 揭晓:革命性的 AI 芯片

NVIDIA近期发布了一篇详细文章,概述了 Blackwell Ultra GB300 的规格和功能。这款先进的芯片现已量产,并供应给部分客户。与之前的 Blackwell 型号相比,Blackwell Ultra 的性能和功能均有显著提升。

NVIDIA Blackwell Ultra

与 NVIDIA Super 系列(在原版 RTX 游戏卡的基础上进行了改进)类似,Ultra 系列也增强了之前的 AI 芯片产品。虽然 Hopper 和 Volta 等早期产品线缺乏 Ultra 功能,但它们的进步为当前的创新奠定了基础。此外,非 Ultra 型号也可通过软件更新和优化获得显著改进。

NVIDIA Blackwell Ultra GPU 图表显示了详细的架构和连接规格。

Blackwell Ultra GB300 是一款高级迭代产品,它结合了两颗 Reticle 大小的芯片,并通过 NVIDIA 的高带宽 NV-HBI 接口连接,从而形成一个统一的 GPU。该芯片采用台积电 4NP 制程技术(其 5nm 节点的优化版本),拥有令人印象深刻的 2080 亿个晶体管,两颗芯片之间的带宽高达 10 TB/s,性能卓越。

具有 CUDA 和张量核心的 NVIDIA 流多处理器架构图。

该 GPU 配备 160 个流多处理器 (SM),每个 SM 共包含 128 个 CUDA 核心。它包含四个第五代 Tensor 核心,支持 FP8、FP6 和 NVFP4 精度计算。这种设计总共包含 20, 480 个 CUDA 核心和 640 个 Tensor 核心,以及 40 MB 的 Tensor 内存 (TMEM)。

特征 料斗 布莱克威尔 布莱克韦尔超级
制造过程 台积电4N 台积电4NP 台积电4NP
晶体管 80B 208B 208B
每 GPU 芯片数量 1 2 2
NVFP4 密集 | 稀疏性能 10 | 20 千万亿次浮点运算 15 | 20 千万亿次浮点运算
FP8 密集 | 稀疏性能 2 | 4 千万亿次浮点运算 5 | 10 千万亿次浮点运算 5 | 10 千万亿次浮点运算
注意力加速(SFU EX2) 4.5 万亿次指数/秒 5 万亿次指数/秒 10.7 万亿次指数/秒
最大 HBM 容量 80 GB HBM (H100) 141 GB HBM3E (H200) 192 GB HBM3E 288 GB HBM3E
最大 HBM 带宽 3.35 TB/秒(H100)4.8 TB/秒(H200) 8TB/秒 8TB/秒
NVLink 带宽 900GB/秒 1, 800 GB/秒 1, 800 GB/秒
最大功率(TGP) 高达 700W 高达 1, 200W 高达 1, 400W

第五代 Tensor 核心的创新对于 AI 计算至关重要。NVIDIA 持续改进这些核心,最终实现了:

  • NVIDIA Volta:引入8线程MMA单元,支持FP16计算。
  • NVIDIA Ampere:通过全 Warp-Wide MMA、BF16 和 TensorFloat-32 进行增强。
  • NVIDIA Hopper:引入了跨 128 个线程的 Warp-group MMA 和支持 FP8 的 Transformer Engine。
  • NVIDIA Blackwell:采用第二代 Transformer Engine,具有增强的 FP8 和 FP6 计算能力。
GPU 内存比较:Hopper H100 80GB、Hopper H200 141GB、Blackwell 192GB、Blackwell Ultra 288GB。

Blackwell Ultra 芯片显著提升了内存容量,从 Blackwell GB200 型号的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 内存。这一飞跃使其能够支持拥有数万亿参数的大规模 AI 模型。其内存架构由八个堆栈组成,配备一个运行速度为 8 TB/s 的 512 位控制器,从而实现:

  • 完整的模型适应:无需卸载内存即可处理 3000 亿+参数模型。
  • 扩展上下文长度:增强变压器应用程序的 KV 缓存容量。
  • 提高计算效率:提高各种工作负载的计算与内存比率。
比较 Dense FP8 和 NVFP4 GPU 性能水平的条形图。

Blackwell 架构具有强大的互连功能,包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口,提供以下规格:

  • 每个 GPU 带宽: 1.8 TB/s 双向(18 个链接 x 100 GB/s)。
  • 性能改进:比 NVLink 4 提高 2 倍(与 Hopper 相比)。
  • 最大拓扑:在非阻塞计算结构中支持最多 576 个 GPU。
  • 机架规模集成:支持 72 个 GPU 的配置,总带宽为 130 TB/s。
  • PCIe 接口: Gen6,具有 16 个通道,提供 256 GB/s 的双向吞吐量。
  • NVLink-C2C:以 900 GB/s 的内存一致性促进 CPU 和 GPU 之间的通信。
互连 霍珀 GPU 布莱克韦尔 GPU Blackwell Ultra GPU
NVLink(GPU-GPU) 900 1, 800 1, 800
NVLink-C2C(CPU-GPU) 900 900 900
PCIe接口 128(第 5 代) 256(第 6 代) 256(第 6 代)

NVIDIA Blackwell Ultra GB300 采用全新 NVFP4 标准,实现了密集低精度计算 (Dense Low Precision Compute) 输出显著提升 50%,提供接近 FP8 的精度,且差异极小(小于 1%)。与 FP8 相比,此项改进还可将内存需求降低高达 1.8 倍,与 FP16 相比,则降低了 3.5 倍。

带有分批 MatMul、Softmax 和加速指标的 Blackwell KV 缓存注意机制图。

Blackwell Ultra 还集成了复杂的调度管理以及企业级安全功能,包括:

  • 增强型 GigaThread 引擎:一种先进的调度程序,可优化工作负载分配,增强所有 160 个 SM 的上下文切换性能。
  • 多实例 GPU (MIG):能够将 GPU 划分为各种 MIG 实例,从而允许定制内存分配以实现安全的多租户。
  • 机密计算:提供对敏感 AI 模型的安全处理,利用基于硬件的可信执行环境 (TEE) 和安全的 NVLink 操作,而不会造成显著的性能损失。
  • 先进的 NVIDIA 远程证明服务 (RAS):一种 AI 驱动的监控系统,通过预测故障和优化维护来提高可靠性。

Blackwell Ultra GB300 的性能效率显著提高,与 GB200 相比,其 TPS/MW 更优异,如下面的图表所示:

架构对推理性能和帕累托前沿用户体验模拟的影响图。帕累托前沿人工智能架构对推理性能和用户体验的影响图表。比较 AI 性能的图表:吞吐量与响应速度,突出显示架构影响。图表比较了帕​​累托前沿上不同架构的 AI 推理性能。

总而言之,NVIDIA 继续引领 AI 技术,Blackwell 和 Blackwell Ultra 架构便是其代表。他们致力于增强软件支持和优化,确保了强大的竞争优势,而持续的研发投入也确保了他们在未来数年内始终处于行业前沿。

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注