NVIDIA Blackwell Ultra“GB300” GPU：推出最快的 AI 芯片，配备双分划板、20000+ 核心、288 GB HBM3e 内存，速度达 8 TB/s，比 GB200 快 50%

NVIDIA 发布了其尖端 AI 芯片 Blackwell Ultra GB300，其性能比其前代产品 GB200 提高了 50%，并且拥有令人印象深刻的 288 GB 内存。

NVIDIA Blackwell Ultra“GB300” 揭晓：革命性的 AI 芯片

NVIDIA近期发布了一篇详细文章，概述了 Blackwell Ultra GB300 的规格和功能。这款先进的芯片现已量产，并供应给部分客户。与之前的 Blackwell 型号相比，Blackwell Ultra 的性能和功能均有显著提升。

与 NVIDIA Super 系列（在原版 RTX 游戏卡的基础上进行了改进）类似，Ultra 系列也增强了之前的 AI 芯片产品。虽然 Hopper 和 Volta 等早期产品线缺乏 Ultra 功能，但它们的进步为当前的创新奠定了基础。此外，非 Ultra 型号也可通过软件更新和优化获得显著改进。

NVIDIA Blackwell Ultra GPU 图表显示了详细的架构和连接规格。

Blackwell Ultra GB300 是一款高级迭代产品，它结合了两颗 Reticle 大小的芯片，并通过 NVIDIA 的高带宽 NV-HBI 接口连接，从而形成一个统一的 GPU。该芯片采用台积电 4NP 制程技术（其 5nm 节点的优化版本），拥有令人印象深刻的 2080 亿个晶体管，两颗芯片之间的带宽高达 10 TB/s，性能卓越。

该 GPU 配备 160 个流多处理器 (SM)，每个 SM 共包含 128 个 CUDA 核心。它包含四个第五代 Tensor 核心，支持 FP8、FP6 和 NVFP4 精度计算。这种设计总共包含 20, 480 个 CUDA 核心和 640 个 Tensor 核心，以及 40 MB 的 Tensor 内存 (TMEM)。

特征	料斗	布莱克威尔	布莱克韦尔超级
制造过程	台积电4N	台积电4NP	台积电4NP
晶体管	80B	208B	208B
每 GPU 芯片数量	1	2	2
NVFP4 密集 \| 稀疏性能	–	10 \| 20 千万亿次浮点运算	15 \| 20 千万亿次浮点运算
FP8 密集 \| 稀疏性能	2 \| 4 千万亿次浮点运算	5 \| 10 千万亿次浮点运算	5 \| 10 千万亿次浮点运算
注意力加速（SFU EX2）	4.5 万亿次指数/秒	5 万亿次指数/秒	10.7 万亿次指数/秒
最大 HBM 容量	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
最大 HBM 带宽	3.35 TB/秒（H100）4.8 TB/秒（H200）	8TB/秒	8TB/秒
NVLink 带宽	900GB/秒	1, 800 GB/秒	1, 800 GB/秒
最大功率（TGP）	高达 700W	高达 1, 200W	高达 1, 400W

第五代 Tensor 核心的创新对于 AI 计算至关重要。NVIDIA 持续改进这些核心，最终实现了：

NVIDIA Volta：引入8线程MMA单元，支持FP16计算。
NVIDIA Ampere：通过全 Warp-Wide MMA、BF16 和 TensorFloat-32 进行增强。
NVIDIA Hopper：引入了跨 128 个线程的 Warp-group MMA 和支持 FP8 的 Transformer Engine。
NVIDIA Blackwell：采用第二代 Transformer Engine，具有增强的 FP8 和 FP6 计算能力。

GPU 内存比较：Hopper H100 80GB、Hopper H200 141GB、Blackwell 192GB、Blackwell Ultra 288GB。

Blackwell Ultra 芯片显著提升了内存容量，从 Blackwell GB200 型号的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 内存。这一飞跃使其能够支持拥有数万亿参数的大规模 AI 模型。其内存架构由八个堆栈组成，配备一个运行速度为 8 TB/s 的 512 位控制器，从而实现：

完整的模型适应：无需卸载内存即可处理 3000 亿+参数模型。
扩展上下文长度：增强变压器应用程序的 KV 缓存容量。
提高计算效率：提高各种工作负载的计算与内存比率。

Blackwell 架构具有强大的互连功能，包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口，提供以下规格：

每个 GPU 带宽： 1.8 TB/s 双向（18 个链接 x 100 GB/s）。
性能改进：比 NVLink 4 提高 2 倍（与 Hopper 相比）。
最大拓扑：在非阻塞计算结构中支持最多 576 个 GPU。
机架规模集成：支持 72 个 GPU 的配置，总带宽为 130 TB/s。

PCIe 接口： Gen6，具有 16 个通道，提供 256 GB/s 的双向吞吐量。
NVLink-C2C：以 900 GB/s 的内存一致性促进 CPU 和 GPU 之间的通信。

互连	霍珀 GPU	布莱克韦尔 GPU	Blackwell Ultra GPU
NVLink（GPU-GPU）	900	1, 800	1, 800
NVLink-C2C（CPU-GPU）	900	900	900
PCIe接口	128（第 5 代）	256（第 6 代）	256（第 6 代）

NVIDIA Blackwell Ultra GB300 采用全新 NVFP4 标准，实现了密集低精度计算 (Dense Low Precision Compute) 输出显著提升 50%，提供接近 FP8 的精度，且差异极小（小于 1%）。与 FP8 相比，此项改进还可将内存需求降低高达 1.8 倍，与 FP16 相比，则降低了 3.5 倍。