
NVIDIA 發布了其尖端 AI 晶片 Blackwell Ultra GB300,其性能比其前代產品 GB200 提高了 50%,並且擁有令人印象深刻的 288 GB 記憶體。
NVIDIA Blackwell Ultra「GB300」 揭曉:革命性的 AI 晶片
NVIDIA近期發布了一篇詳細文章,概述了 Blackwell Ultra GB300 的規格和功能。這款先進的晶片現已量產,並供應給部分客戶。與先前的 Blackwell 型號相比,Blackwell Ultra 的性能和功能均有顯著提升。

與 NVIDIA Super 系列(在原版 RTX 遊戲卡的基礎上進行了改進)類似,Ultra 系列也增強了先前的 AI 晶片產品。雖然 Hopper 和 Volta 等早期產品線缺乏 Ultra 功能,但它們的進步為當前的創新奠定了基礎。此外,非 Ultra 型號也可透過軟體更新和最佳化獲得顯著改進。

Blackwell Ultra GB300 是一款高級迭代產品,它結合了兩顆 Reticle 大小的晶片,並透過 NVIDIA 的高頻寬 NV-HBI 介面連接,從而形成一個統一的 GPU。該晶片採用台積電 4NP 製程技術(其 5nm 節點的最佳化版本),擁有令人印象深刻的 2, 080 億個電晶體,兩顆晶片之間的頻寬高達 10 TB/s,性能卓越。

該 GPU 配備 160 個串流多處理器 (SM),每個 SM 共包含 128 個 CUDA 核心。它包含四個第五代 Tensor 核心,支援 FP8、FP6 和 NVFP4 精確度計算。這種設計總共包含 20, 480 個 CUDA 核心和 640 個 Tensor 核心,以及 40 MB 的 Tensor 記憶體 (TMEM)。
特徵 | 料斗 | 布萊克威爾 | 布萊克韋爾超級 |
---|---|---|---|
製造過程 | 台積電4N | 台積電4NP | 台積電4NP |
電晶體 | 80B | 208B | 208B |
每 GPU 晶片數量 | 1 | 2 | 2 |
NVFP4 密集 | 稀疏效能 | – | 10 | 20 千萬億次浮點運算 | 15 | 20 千萬億次浮點運算 |
FP8 密集 | 稀疏性能 | 2 | 4 千萬億次浮點運算 | 5 | 10 千萬億次浮點運算 | 5 | 10 千萬億次浮點運算 |
注意力加速(SFU EX2) | 4.5 兆次指數/秒 | 5 兆次指數/秒 | 10.7 兆次指數/秒 |
最大 HBM 容量 | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | 288 GB HBM3E |
最大 HBM 頻寬 | 3.35 TB/秒(H100)4.8 TB/秒(H200) | 8TB/秒 | 8TB/秒 |
NVLink 頻寬 | 900GB/秒 | 1, 800 GB/秒 | 1, 800 GB/秒 |
最大功率(TGP) | 鋼彈 700W | 高達 1, 200W | 高達 1, 400W |
第五代 Tensor 核心的創新對於 AI 運算至關重要。 NVIDIA 持續改善這些核心,最終實現了:
- NVIDIA Volta:引進8執行緒MMA單元,支援FP16運算。
- NVIDIA Ampere:透過全 Warp-Wide MMA、BF16 和 TensorFloat-32 進行增強。
- NVIDIA Hopper:引入了跨 128 個線程的 Warp-group MMA 和支援 FP8 的 Transformer Engine。
- NVIDIA Blackwell:採用第二代 Transformer Engine,具備增強的 FP8 和 FP6 運算能力。

Blackwell Ultra 晶片顯著提升了內存容量,從 Blackwell GB200 型號的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 內存。這一飛躍使其能夠支援擁有數萬億參數的大規模 AI 模型。其記憶體架構由八個堆疊組成,配備一個運行速度為 8 TB/s 的 512 位元控制器,從而實現:
- 完整的模型適應:無需卸載記憶體即可處理 3000 億+參數模型。
- 擴展上下文長度:增強變壓器應用程式的 KV 快取容量。
- 提高運算效率:提高各種工作負載的計算與記憶體比率。

Blackwell 架構具有強大的互連功能,包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口,提供以下規格:
- 每個 GPU 頻寬: 1.8 TB/s 雙向(18 個連結 x 100 GB/s)。
- 效能改進:比 NVLink 4 提高 2 倍(與 Hopper 相比)。
- 最大拓撲:在非阻塞運算結構中支援最多 576 個 GPU。
- 機架規模整合:支援 72 個 GPU 的配置,總頻寬為 130 TB/s。
- PCIe 介面: Gen6,具有 16 個通道,提供 256 GB/s 的雙向吞吐量。
- NVLink-C2C:以 900 GB/s 的記憶體一致性促進 CPU 和 GPU 之間的通訊。
互連 | 霍珀 GPU | 布萊克韋爾 GPU | Blackwell Ultra GPU |
---|---|---|---|
NVLink(GPU-GPU) | 900 | 1, 800 | 1, 800 |
NVLink-C2C(CPU-GPU) | 900 | 900 | 900 |
PCIe介面 | 128(第 5 代) | 256(第 6 代) | 256(第 6 代) |
NVIDIA Blackwell Ultra GB300 採用全新 NVFP4 標準,實現了密集低精度運算 (Dense Low Precision Compute) 輸出顯著提升 50%,提供接近 FP8 的精度,且差異極小(小於 1%)。與 FP8 相比,此項改進還可將記憶體需求降低高達 1.8 倍,與 FP16 相比,則降低了 3.5 倍。

Blackwell Ultra 還整合了複雜的調度管理以及企業級安全功能,包括:
- 增強型 GigaThread 引擎:先進的調度程序,可最佳化工作負載分配,增強所有 160 個 SM 的上下文切換效能。
- 多執行個體 GPU (MIG):能夠將 GPU 劃分為各種 MIG 實例,從而允許自訂記憶體分配以實現安全的多租戶。
- 機密運算:提供對敏感 AI 模型的安全處理,利用基於硬體的可信任執行環境 (TEE) 和安全的 NVLink 操作,而不會造成顯著的效能損失。
- 先進的 NVIDIA 遠端證明服務 (RAS):一種 AI 驅動的監控系統,透過預測故障和優化維護來提高可靠性。
Blackwell Ultra GB300 的效能效率顯著提高,與 GB200 相比,其 TPS/MW 更優異,如下面的圖表所示:




總而言之,NVIDIA 持續引領 AI 技術,Blackwell 和 Blackwell Ultra 架構就是其代表。他們致力於增強軟體支援和優化,確保了強大的競爭優勢,而持續的研發投入也確保了他們在未來幾年內始終處於行業前沿。
發佈留言