NVIDIA Blackwell Ultra「GB300」 GPU：推出最快的 AI 晶片，配備雙分劃板、20000+ 核心、288 GB HBM3e 內存，速度達 8 TB/s，比 GB200 快 50%

NVIDIA 發布了其尖端 AI 晶片 Blackwell Ultra GB300，其性能比其前代產品 GB200 提高了 50%，並且擁有令人印象深刻的 288 GB 記憶體。

NVIDIA Blackwell Ultra「GB300」揭曉：革命性的 AI 晶片

NVIDIA近期發布了一篇詳細文章，概述了 Blackwell Ultra GB300 的規格和功能。這款先進的晶片現已量產，並供應給部分客戶。與先前的 Blackwell 型號相比，Blackwell Ultra 的性能和功能均有顯著提升。

與 NVIDIA Super 系列（在原版 RTX 遊戲卡的基礎上進行了改進）類似，Ultra 系列也增強了先前的 AI 晶片產品。雖然 Hopper 和 Volta 等早期產品線缺乏 Ultra 功能，但它們的進步為當前的創新奠定了基礎。此外，非 Ultra 型號也可透過軟體更新和最佳化獲得顯著改進。

NVIDIA Blackwell Ultra GPU 圖表顯示了詳細的架構和連接規格。

Blackwell Ultra GB300 是一款高級迭代產品，它結合了兩顆 Reticle 大小的晶片，並透過 NVIDIA 的高頻寬 NV-HBI 介面連接，從而形成一個統一的 GPU。該晶片採用台積電 4NP 製程技術（其 5nm 節點的最佳化版本），擁有令人印象深刻的 2, 080 億個電晶體，兩顆晶片之間的頻寬高達 10 TB/s，性能卓越。

該 GPU 配備 160 個串流多處理器 (SM)，每個 SM 共包含 128 個 CUDA 核心。它包含四個第五代 Tensor 核心，支援 FP8、FP6 和 NVFP4 精確度計算。這種設計總共包含 20, 480 個 CUDA 核心和 640 個 Tensor 核心，以及 40 MB 的 Tensor 記憶體 (TMEM)。

特徵	料斗	布萊克威爾	布萊克韋爾超級
製造過程	台積電4N	台積電4NP	台積電4NP
電晶體	80B	208B	208B
每 GPU 晶片數量	1	2	2
NVFP4 密集 \| 稀疏效能	–	10 \| 20 千萬億次浮點運算	15 \| 20 千萬億次浮點運算
FP8 密集 \| 稀疏性能	2 \| 4 千萬億次浮點運算	5 \| 10 千萬億次浮點運算	5 \| 10 千萬億次浮點運算
注意力加速（SFU EX2）	4.5 兆次指數/秒	5 兆次指數/秒	10.7 兆次指數/秒
最大 HBM 容量	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	288 GB HBM3E
最大 HBM 頻寬	3.35 TB/秒（H100）4.8 TB/秒（H200）	8TB/秒	8TB/秒
NVLink 頻寬	900GB/秒	1, 800 GB/秒	1, 800 GB/秒
最大功率（TGP）	鋼彈 700W	高達 1, 200W	高達 1, 400W

第五代 Tensor 核心的創新對於 AI 運算至關重要。 NVIDIA 持續改善這些核心，最終實現了：

NVIDIA Volta：引進8執行緒MMA單元，支援FP16運算。
NVIDIA Ampere：透過全 Warp-Wide MMA、BF16 和 TensorFloat-32 進行增強。
NVIDIA Hopper：引入了跨 128 個線程的 Warp-group MMA 和支援 FP8 的 Transformer Engine。
NVIDIA Blackwell：採用第二代 Transformer Engine，具備增強的 FP8 和 FP6 運算能力。

GPU 記憶體比較：Hopper H100 80GB、Hopper H200 141GB、Blackwell 192GB、Blackwell Ultra 288GB。

Blackwell Ultra 晶片顯著提升了內存容量，從 Blackwell GB200 型號的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 內存。這一飛躍使其能夠支援擁有數萬億參數的大規模 AI 模型。其記憶體架構由八個堆疊組成，配備一個運行速度為 8 TB/s 的 512 位元控制器，從而實現：

完整的模型適應：無需卸載記憶體即可處理 3000 億+參數模型。
擴展上下文長度：增強變壓器應用程式的 KV 快取容量。
提高運算效率：提高各種工作負載的計算與記憶體比率。

Blackwell 架構具有強大的互連功能，包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口，提供以下規格：

每個 GPU 頻寬： 1.8 TB/s 雙向（18 個連結 x 100 GB/s）。
效能改進：比 NVLink 4 提高 2 倍（與 Hopper 相比）。
最大拓撲：在非阻塞運算結構中支援最多 576 個 GPU。
機架規模整合：支援 72 個 GPU 的配置，總頻寬為 130 TB/s。

PCIe 介面： Gen6，具有 16 個通道，提供 256 GB/s 的雙向吞吐量。
NVLink-C2C：以 900 GB/s 的記憶體一致性促進 CPU 和 GPU 之間的通訊。

互連	霍珀 GPU	布萊克韋爾 GPU	Blackwell Ultra GPU
NVLink（GPU-GPU）	900	1, 800	1, 800
NVLink-C2C（CPU-GPU）	900	900	900
PCIe介面	128（第 5 代）	256（第 6 代）	256（第 6 代）

NVIDIA Blackwell Ultra GB300 採用全新 NVFP4 標準，實現了密集低精度運算 (Dense Low Precision Compute) 輸出顯著提升 50%，提供接近 FP8 的精度，且差異極小（小於 1%）。與 FP8 相比，此項改進還可將記憶體需求降低高達 1.8 倍，與 FP16 相比，則降低了 3.5 倍。