Google的 Trillium TPU:人工智慧加速的新時代
十年前,Google開始了創建稱為張量處理單元(TPU)的客製化人工智慧加速器的旅程。 2023 年初,這家科技巨頭推出了名為 Trillium 的第六代 TPU,它在性能和效率方面樹立了新基準,超越了先前的型號。今天,Google宣布 Trillium TPU 現在已可供 Google Cloud 客戶普遍使用,同時透露這些強大的 TPU 在訓練其最新模型 Gemini 2.0 方面發揮了重要作用。
打入人工智慧開發者生態系統
Nvidia 的 GPU 已成為人工智慧開發人員的主要選擇,不僅因為其卓越的硬件,還因為強大的軟體支援。為了激發人們對 Trillium TPU 的類似熱情,Google對其軟體框架進行了重大增強。這包括對 XLA 編譯器以及 JAX、PyTorch 和 TensorFlow 等流行 AI 框架的最佳化,使開發人員能夠最大限度地提高 AI 訓練、調優和部署的成本效益。
Trillium TPU 的主要改進
Trillium TPU 與上一代相比提供了一系列重大改進,包括:
- 訓練表現提升 4 倍以上
- 推理吞吐量提高高達 3 倍
- 能源效率提高 67%
- 每個晶片的峰值運算性能提升了 4.7 倍,令人印象深刻
- 高頻寬記憶體 (HBM) 容量翻倍
- 晶片間互連 (ICI) 頻寬也增加了一倍
- 能夠在統一的 Jupiter 網路結構中部署 100,000 個 Trillium 晶片
- 每美元的訓練表現提升高達 2.5 倍,推理表現提升高達 1.4 倍
可擴充性和可用性
谷歌報告稱,Trillium TPU 在由3,072 個晶片組成的12 個Pod 的設定中可以實現令人印象深刻的99% 的擴展效率,並且在使用6,144 個晶片的24 個Pod 中實現94% 的效率,使其適合預訓練像GPT-3 175 這樣的大型模型億個參數。
目前,Trillium 可在北美(美國東部)、歐洲(西部)和亞洲(東北部)等關鍵區域部署。對於對評估感興趣的用戶,成本為每晶片小時 2.7000 美元。此外,長期承諾可提供為期一年的每晶片小時 1.8900 美元的降價,以及為期三年的每晶片小時 1.2200 美元的降價。
結論
憑藉其可擴展性和增強的軟體功能,Trillium 標誌著Google雲端人工智慧基礎設施策略的重大進步,使其成為不斷發展的人工智慧加速器市場中的強大競爭對手。
發佈留言