AI晶片大戰:NVIDIA面臨來自GoogleTPU的強勁挑戰,而不僅僅是AMD和英特爾

AI晶片大戰:NVIDIA面臨來自GoogleTPU的強勁挑戰,而不僅僅是AMD和英特爾

在瞬息萬變的人工智慧領域,英偉達面臨前所未有的挑戰,而這些挑戰主要並非來自AMD或英特爾,而是來自谷歌——這家新興競爭對手正在迅速縮小與英偉達之間的差距。英偉達執行長黃仁勳對這種競爭格局有著清醒的認知。

乍看之下,Google在人工智慧硬體領域處於領先地位似乎令人驚訝,但這家科技巨頭實際上早在2016年就推出了首款定制人工智慧晶片TPU(張量處理單元),遠遠領先於競爭對手,從而奠定了基礎。最近,Google發布了其最新成果——第七代Ironwood TPU,這一發布引發了廣泛關注,並為英偉達和谷歌之間的激烈競爭拉開了序幕。本文將深入探討這場對決的關鍵所在,尤其著重分析GoogleIronwood TPU帶來的技術進步。

谷歌的Ironwood TPU:192 GB HBM 與重大效能提升

谷歌的 Ironwood TPU 即將部署到各種工作負載中,預計很快就會上市。谷歌將 Ironwood 定位為一款「專注於推理」的晶片,並聲稱它預示著推理性能的新時代,能夠提升通用計算的效率。 TPU v7(Ironwood)經過精心設計,旨在從模型訓練過渡到推理,而推理有望主導當前的技術格局。以下是一些值得關注的規格:

  • 峰值效能比 TPU v5p 提升 10 倍。
  • 與 TPU v6e (Trillium) 相比,每個晶片在訓練和推理方面的效能提高了 4 倍。
  • 這是谷歌迄今為止開發的最強大、最節能的客製化晶片。

進一步分析其規格,Ironwood 晶片擁有驚人的 192 GB 7.4 TB/s HBM 內存,單晶片峰值性能可達驚人的 4, 614 TFLOPS,比 TPU v4 提升了近 16 倍。此外,隨著包含 9, 216 個晶片的 Ironwood TPU Superpod 的推出,Google能夠為聚合的 FP8 運算工作負載提供高達 42.5 exaFLOPS 的強大效能。此次整合凸顯了Google創新的互連解決方案,其可擴充性已超越 NVIDIA 的 NVLink。

一個大房間裡擺滿了成排的伺服器機架,這些機架透過各種顏色的電纜錯綜複雜地連接在一起。
Google的Ironwood SuperPod

谷歌專注於互連性,採用了晶片間互連(ICI)技術,這是一種專為可擴展性而設計的強大網路。該技術允許透過 1.8 PB 的網路連接 43 個 Superpod 模組(每個模組包含 64 個晶片)。透過使用網路卡進行內部通信,並採用 3D 環形佈局來部署 TPU,Google優化了互連性,有效提升了可擴展性和晶片密度——在這一領域,Google超越了英偉達的產品。

規格 價值
單晶片峰值運算能力(FP8) 約 4, 614 TFLOPS
每個晶片的HBM容量 192 GB HBM3e
每個晶片的記憶體頻寬 約 7.2 TB/s
最大晶片數量 9, 216 個晶片
每個 pod 的峰值運算能力 約 42.5 ExaFLOPS
每個 pod 的系統記憶體(HBM) 約 1.77 PB
晶片間互連 (ICI) 頻寬 每鏈路約 1.2 Tb/s
績效改進 比 TPU v4 大約 16 倍

谷歌進軍ASIC晶片領域的野心:對英偉達AI霸主地位的真正威脅?

當我們審視Ironwood TPU在當今推理時代的重要性時,必須認識到推理能力日益增長的重要性。傳統上,模型訓練主導人工智慧領域,NVIDIA的運算解決方案因其在訓練場景中的卓越效能而被廣泛應用。然而,隨著主流模型的普及,推理任務呈現爆炸性成長,其數量往往超過了訓練需求。

推理效能不僅取決於 TFLOPS 運算能力;延遲、吞吐量、效率和每次查詢成本等因素正變得越來越重要。研究Google的 Ironwood 產品,就能明白為什麼它們在這方面可能超越 NVIDIA。例如,Ironwood 擁有與 NVIDIA Blackwell B200 AI GPU 類似的龐大封裝記憶體。此外,SuperPod 的叢集能力(包含 9216 個晶片)顯著擴展了整體記憶體容量。

伺服器主機板特寫,圖中可見金屬冷卻塊、散熱片和用於液冷的連接管路。
一塊 Ironwood 主機板,展示了三個連接到液冷系統的 Ironwood TPU。

在推理場景中,更高的記憶體容量至關重要,因為它能最大限度地減少晶片間的通訊延遲,並提升大型模型的延遲效能,這進一步增強了Ironwood的吸引力。谷歌精心設計了Ironwood,使其能夠適應低延遲環境,同時也提高了能源效率——這是其預期成功的關鍵因素。

超大規模推理需要數千個晶片持續有效地處理查詢請求,因此對於雲端服務提供者 (CSP) 而言,部署和營運成本比原始效能更為重要。為此,Google的 Ironwood 晶片將能源效率提高了兩倍,使其 TPU 更經濟高效,適用於廣泛的推理應用。

NVIDIA Rubin CPX GPU 專為海量情境應用而設計,配備 128GB GDDR7 記憶體等功能,將於 2026 年底上市。
圖片來源:NVIDIA公司

人工智慧領域的競爭格局正從單純追求最高的浮點運算效能(FLOPS)轉向更為精細的博弈,涵蓋查詢處理能力、延遲降低、營運成本和能源效率等多個面向。這種演變為Google提供了一個全新的切入點,使其能夠利用英偉達在人工智慧領域長期主導地位的潛在弱點,搶佔先機。值得注意的是,Ironwood 將僅透過Google雲端平台提供,這可能會導致生態系統鎖定,並可能危及英偉達的既有地位。 Google TPU 的迭代改進凸顯了其競爭優勢,預示著一種轉變,而這種轉變應該對英偉達的策略規劃產生影響。

儘管如此,NVIDIA並未對此新挑戰置之不理;它推出了Rubin CPX作為應對之策,旨在透過優化的機架式解決方案開闢一片重要的市場。然而,越來越明顯的是,Google正在崛起成為NVIDIA的強勁對手,而英特爾和AMD目前在影響力和創新方面仍落後於NVIDIA。

在一段值得注意的評論中,黃仁勳在之前的一次採訪中反思了Google的TPU功能,並承認了其產品的複雜性和競爭性:

說到這裡…最大的論點之一…就是GPU與ASIC、Google的TPU、亞馬遜的Trainium之間的選擇。谷歌…他們在一切開始之前就推出了TPU1。 ……這對ASIC的開發者來說是一個挑戰。

TPU目前使用的是TPU 7版本。是的。沒錯。這對他們來說也是個挑戰。沒錯。所以他們所做的工作非常艱鉅。

圖片來源及圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *