
NVIDIA 发布了其尖端 AI 芯片 Blackwell Ultra GB300,其性能比其前代产品 GB200 提高了 50%,并且拥有令人印象深刻的 288 GB 内存。
NVIDIA Blackwell Ultra“GB300” 揭晓:革命性的 AI 芯片
NVIDIA近期发布了一篇详细文章,概述了 Blackwell Ultra GB300 的规格和功能。这款先进的芯片现已量产,并供应给部分客户。与之前的 Blackwell 型号相比,Blackwell Ultra 的性能和功能均有显著提升。

与 NVIDIA Super 系列(在原版 RTX 游戏卡的基础上进行了改进)类似,Ultra 系列也增强了之前的 AI 芯片产品。虽然 Hopper 和 Volta 等早期产品线缺乏 Ultra 功能,但它们的进步为当前的创新奠定了基础。此外,非 Ultra 型号也可通过软件更新和优化获得显著改进。

Blackwell Ultra GB300 是一款高级迭代产品,它结合了两颗 Reticle 大小的芯片,并通过 NVIDIA 的高带宽 NV-HBI 接口连接,从而形成一个统一的 GPU。该芯片采用台积电 4NP 制程技术(其 5nm 节点的优化版本),拥有令人印象深刻的 2080 亿个晶体管,两颗芯片之间的带宽高达 10 TB/s,性能卓越。

该 GPU 配备 160 个流多处理器 (SM),每个 SM 共包含 128 个 CUDA 核心。它包含四个第五代 Tensor 核心,支持 FP8、FP6 和 NVFP4 精度计算。这种设计总共包含 20, 480 个 CUDA 核心和 640 个 Tensor 核心,以及 40 MB 的 Tensor 内存 (TMEM)。
特征 | 料斗 | 布莱克威尔 | 布莱克韦尔超级 |
---|---|---|---|
制造过程 | 台积电4N | 台积电4NP | 台积电4NP |
晶体管 | 80B | 208B | 208B |
每 GPU 芯片数量 | 1 | 2 | 2 |
NVFP4 密集 | 稀疏性能 | – | 10 | 20 千万亿次浮点运算 | 15 | 20 千万亿次浮点运算 |
FP8 密集 | 稀疏性能 | 2 | 4 千万亿次浮点运算 | 5 | 10 千万亿次浮点运算 | 5 | 10 千万亿次浮点运算 |
注意力加速(SFU EX2) | 4.5 万亿次指数/秒 | 5 万亿次指数/秒 | 10.7 万亿次指数/秒 |
最大 HBM 容量 | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
最大 HBM 带宽 | 3.35 TB/秒(H100)4.8 TB/秒(H200) | 8TB/秒 | 8TB/秒 |
NVLink 带宽 | 900GB/秒 | 1, 800 GB/秒 | 1, 800 GB/秒 |
最大功率(TGP) | 高达 700W | 高达 1, 200W | 高达 1, 400W |
第五代 Tensor 核心的创新对于 AI 计算至关重要。NVIDIA 持续改进这些核心,最终实现了:
- NVIDIA Volta:引入8线程MMA单元,支持FP16计算。
- NVIDIA Ampere:通过全 Warp-Wide MMA、BF16 和 TensorFloat-32 进行增强。
- NVIDIA Hopper:引入了跨 128 个线程的 Warp-group MMA 和支持 FP8 的 Transformer Engine。
- NVIDIA Blackwell:采用第二代 Transformer Engine,具有增强的 FP8 和 FP6 计算能力。

Blackwell Ultra 芯片显著提升了内存容量,从 Blackwell GB200 型号的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 内存。这一飞跃使其能够支持拥有数万亿参数的大规模 AI 模型。其内存架构由八个堆栈组成,配备一个运行速度为 8 TB/s 的 512 位控制器,从而实现:
- 完整的模型适应:无需卸载内存即可处理 3000 亿+参数模型。
- 扩展上下文长度:增强变压器应用程序的 KV 缓存容量。
- 提高计算效率:提高各种工作负载的计算与内存比率。

Blackwell 架构具有强大的互连功能,包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口,提供以下规格:
- 每个 GPU 带宽: 1.8 TB/s 双向(18 个链接 x 100 GB/s)。
- 性能改进:比 NVLink 4 提高 2 倍(与 Hopper 相比)。
- 最大拓扑:在非阻塞计算结构中支持最多 576 个 GPU。
- 机架规模集成:支持 72 个 GPU 的配置,总带宽为 130 TB/s。
- PCIe 接口: Gen6,具有 16 个通道,提供 256 GB/s 的双向吞吐量。
- NVLink-C2C:以 900 GB/s 的内存一致性促进 CPU 和 GPU 之间的通信。
互连 | 霍珀 GPU | 布莱克韦尔 GPU | Blackwell Ultra GPU |
---|---|---|---|
NVLink(GPU-GPU) | 900 | 1, 800 | 1, 800 |
NVLink-C2C(CPU-GPU) | 900 | 900 | 900 |
PCIe接口 | 128(第 5 代) | 256(第 6 代) | 256(第 6 代) |
NVIDIA Blackwell Ultra GB300 采用全新 NVFP4 标准,实现了密集低精度计算 (Dense Low Precision Compute) 输出显著提升 50%,提供接近 FP8 的精度,且差异极小(小于 1%)。与 FP8 相比,此项改进还可将内存需求降低高达 1.8 倍,与 FP16 相比,则降低了 3.5 倍。

Blackwell Ultra 还集成了复杂的调度管理以及企业级安全功能,包括:
- 增强型 GigaThread 引擎:一种先进的调度程序,可优化工作负载分配,增强所有 160 个 SM 的上下文切换性能。
- 多实例 GPU (MIG):能够将 GPU 划分为各种 MIG 实例,从而允许定制内存分配以实现安全的多租户。
- 机密计算:提供对敏感 AI 模型的安全处理,利用基于硬件的可信执行环境 (TEE) 和安全的 NVLink 操作,而不会造成显著的性能损失。
- 先进的 NVIDIA 远程证明服务 (RAS):一种 AI 驱动的监控系统,通过预测故障和优化维护来提高可靠性。
Blackwell Ultra GB300 的性能效率显著提高,与 GB200 相比,其 TPS/MW 更优异,如下面的图表所示:




总而言之,NVIDIA 继续引领 AI 技术,Blackwell 和 Blackwell Ultra 架构便是其代表。他们致力于增强软件支持和优化,确保了强大的竞争优势,而持续的研发投入也确保了他们在未来数年内始终处于行业前沿。
发表回复