
據報道,NVIDIA 的頂級圖形處理單元 GeForce RTX 5090 和 RTX PRO 6000 面臨一個令人不安的問題,導致它們在虛擬化操作期間無響應。
NVIDIA Blackwell GPU 中發現嚴重虛擬化問題
CloudRift 是一家領先的 GPU 雲端開發者服務商,它率先曝光了 NVIDIA 高效能顯示卡的不穩定性問題。他們觀察到,這些 GPU 在虛擬機器 (VM) 環境中使用幾天後就完全沒有回應。值得注意的是,一旦出現問題,只有重啟節點系統才能恢復對受影響 GPU 的存取。這個令人擔憂的問題似乎僅限於 RTX 5090 和 RTX PRO 6000 型號,其他 GPU(例如 RTX 4090、Hopper H100 和基於 Blackwell 的 B200)暫時不受影響。
問題的關鍵在於,GPU 透過 VFIO 裝置驅動程式分配給虛擬機器時。在功能級重置 (FLR) 之後,GPU 無法響應,導致核心“軟鎖”,從而有效地停止主機和客戶端系統上的操作。為了解決死鎖,需要重新啟動主機,由於 CloudRift 管理的客戶數量眾多,這給 CloudRift 帶來了極大的麻煩。

此問題不僅限於 CloudRift。 Proxmox 論壇上的一位用戶報告了類似的體驗,關閉 Windows 用戶端後系統完全崩潰。值得注意的是,NVIDIA 已承認此情況,並確認他們已成功復現該問題,並正在積極尋求解決方案。目前仍在等待 NVIDIA 的官方確認,但早期跡象表明,該問題主要與他們的 Blackwell 架構 GPU 有關。
為了應對這項關鍵挑戰,CloudRift 宣布提供 1, 000 美元的漏洞賞金,以激勵開發者修復或緩解此問題。鑑於這些 GPU 對關鍵 AI 工作負載的重要性,隨著迅速解決此問題的壓力越來越大,預計 NVIDIA 將迅速採取行動。
發佈留言