NVIDIA Blackwell Ultra「GB300」 GPU:推出最快的 AI 晶片,配備雙分劃板、20000+ 核心、288 GB HBM3e 內存,速度達 8 TB/s,比 GB200 快 50%

NVIDIA Blackwell Ultra「GB300」 GPU:推出最快的 AI 晶片,配備雙分劃板、20000+ 核心、288 GB HBM3e 內存,速度達 8 TB/s,比 GB200 快 50%

NVIDIA 發布了其尖端 AI 晶片 Blackwell Ultra GB300,其性能比其前代產品 GB200 提高了 50%,並且擁有令人印象深刻的 288 GB 記憶體。

NVIDIA Blackwell Ultra「GB300」 揭曉:革命性的 AI 晶片

NVIDIA近期發布了一篇詳細文章,概述了 Blackwell Ultra GB300 的規格和功能。這款先進的晶片現已量產,並供應給部分客戶。與先前的 Blackwell 型號相比,Blackwell Ultra 的性能和功能均有顯著提升。

NVIDIA Blackwell Ultra

與 NVIDIA Super 系列(在原版 RTX 遊戲卡的基礎上進行了改進)類似,Ultra 系列也增強了先前的 AI 晶片產品。雖然 Hopper 和 Volta 等早期產品線缺乏 Ultra 功能,但它們的進步為當前的創新奠定了基礎。此外,非 Ultra 型號也可透過軟體更新和最佳化獲得顯著改進。

NVIDIA Blackwell Ultra GPU 圖表顯示了詳細的架構和連接規格。

Blackwell Ultra GB300 是一款高級迭代產品,它結合了兩顆 Reticle 大小的晶片,並透過 NVIDIA 的高頻寬 NV-HBI 介面連接,從而形成一個統一的 GPU。該晶片採用台積電 4NP 製程技術(其 5nm 節點的最佳化版本),擁有令人印象深刻的 2, 080 億個電晶體,兩顆晶片之間的頻寬高達 10 TB/s,性能卓越。

具有 CUDA 和張量核心的 NVIDIA 流多處理器架構圖。

該 GPU 配備 160 個串流多處理器 (SM),每個 SM 共包含 128 個 CUDA 核心。它包含四個第五代 Tensor 核心,支援 FP8、FP6 和 NVFP4 精確度計算。這種設計總共包含 20, 480 個 CUDA 核心和 640 個 Tensor 核心,以及 40 MB 的 Tensor 記憶體 (TMEM)。

特徵 料斗 布萊克威爾 布萊克韋爾超級
製造過程 台積電4N 台積電4NP 台積電4NP
電晶體 80B 208B 208B
每 GPU 晶片數量 1 2 2
NVFP4 密集 | 稀疏效能 10 | 20 千萬億次浮點運算 15 | 20 千萬億次浮點運算
FP8 密集 | 稀疏性能 2 | 4 千萬億次浮點運算 5 | 10 千萬億次浮點運算 5 | 10 千萬億次浮點運算
注意力加速(SFU EX2) 4.5 兆次指數/秒 5 兆次指數/秒 10.7 兆次指數/秒
最大 HBM 容量 80 GB HBM (H100) 141 GB HBM3E (H200) 192 GB HBM3E 288 GB HBM3E
最大 HBM 頻寬 3.35 TB/秒(H100)4.8 TB/秒(H200) 8TB/秒 8TB/秒
NVLink 頻寬 900GB/秒 1, 800 GB/秒 1, 800 GB/秒
最大功率(TGP) 鋼彈 700W 高達 1, 200W 高達 1, 400W

第五代 Tensor 核心的創新對於 AI 運算至關重要。 NVIDIA 持續改善這些核心,最終實現了:

  • NVIDIA Volta:引進8執行緒MMA單元,支援FP16運算。
  • NVIDIA Ampere:透過全 Warp-Wide MMA、BF16 和 TensorFloat-32 進行增強。
  • NVIDIA Hopper:引入了跨 128 個線程的 Warp-group MMA 和支援 FP8 的 Transformer Engine。
  • NVIDIA Blackwell:採用第二代 Transformer Engine,具備增強的 FP8 和 FP6 運算能力。
GPU 記憶體比較:Hopper H100 80GB、Hopper H200 141GB、Blackwell 192GB、Blackwell Ultra 288GB。

Blackwell Ultra 晶片顯著提升了內存容量,從 Blackwell GB200 型號的最高 192 GB 提升至令人印象深刻的 288 GB HBM3e 內存。這一飛躍使其能夠支援擁有數萬億參數的大規模 AI 模型。其記憶體架構由八個堆疊組成,配備一個運行速度為 8 TB/s 的 512 位元控制器,從而實現:

  • 完整的模型適應:無需卸載記憶體即可處理 3000 億+參數模型。
  • 擴展上下文長度:增強變壓器應用程式的 KV 快取容量。
  • 提高運算效率:提高各種工作負載的計算與記憶體比率。
比較 Dense FP8 和 NVFP4 GPU 效能等級的長條圖。

Blackwell 架構具有強大的互連功能,包括 NVLINK、NVLINK-C2C 和 PCIe Gen6 x16 接口,提供以下規格:

  • 每個 GPU 頻寬: 1.8 TB/s 雙向(18 個連結 x 100 GB/s)。
  • 效能改進:比 NVLink 4 提高 2 倍(與 Hopper 相比)。
  • 最大拓撲:在非阻塞運算結構中支援最多 576 個 GPU。
  • 機架規模整合:支援 72 個 GPU 的配置,總頻寬為 130 TB/s。
  • PCIe 介面: Gen6,具有 16 個通道,提供 256 GB/s 的雙向吞吐量。
  • NVLink-C2C:以 900 GB/s 的記憶體一致性促進 CPU 和 GPU 之間的通訊。
互連 霍珀 GPU 布萊克韋爾 GPU Blackwell Ultra GPU
NVLink(GPU-GPU) 900 1, 800 1, 800
NVLink-C2C(CPU-GPU) 900 900 900
PCIe介面 128(第 5 代) 256(第 6 代) 256(第 6 代)

NVIDIA Blackwell Ultra GB300 採用全新 NVFP4 標準,實現了密集低精度運算 (Dense Low Precision Compute) 輸出顯著提升 50%,提供接近 FP8 的精度,且差異極小(小於 1%)。與 FP8 相比,此項改進還可將記憶體需求降低高達 1.8 倍,與 FP16 相比,則降低了 3.5 倍。

具有分批 MatMul、Softmax 和加速指標的 Blackwell KV 快取注意機製圖。

Blackwell Ultra 還整合了複雜的調度管理以及企業級安全功能,包括:

  • 增強型 GigaThread 引擎:先進的調度程序,可最佳化工作負載分配,增強所有 160 個 SM 的上下文切換效能。
  • 多執行個體 GPU (MIG):能夠將 GPU 劃分為各種 MIG 實例,從而允許自訂記憶體分配以實現安全的多租戶。
  • 機密運算:提供對敏感 AI 模型的安全處理,利用基於硬體的可信任執行環境 (TEE) 和安全的 NVLink 操作,而不會造成顯著的效能損失。
  • 先進的 NVIDIA 遠端證明服務 (RAS):一種 AI 驅動的監控系統,透過預測故障和優化維護來提高可靠性。

Blackwell Ultra GB300 的效能效率顯著提高,與 GB200 相比,其 TPS/MW 更優異,如下面的圖表所示:

架構對推理效能和帕累托前緣使用者體驗模擬的影響圖。帕累托前緣人工智慧架構對推理效能和使用者體驗的影響圖表。比較 AI 效能的圖表:吞吐量與回應速度,突顯架構影響。圖表比較了帕累托前緣上不同架構的 AI 推理性能。

總而言之,NVIDIA 持續引領 AI 技術,Blackwell 和 Blackwell Ultra 架構就是其代表。他們致力於增強軟體支援和優化,確保了強大的競爭優勢,而持續的研發投入也確保了他們在未來幾年內始終處於行業前沿。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *