研究表明,GPUHammer 可將 GDDR6 記憶體 GPU 上的 AI 模型準確率從 80% 降低至僅 0.1%

研究表明,GPUHammer 可將 GDDR6 記憶體 GPU 上的 AI 模型準確率從 80% 降低至僅 0.1%

GPU 技術的最新進展暴露出了一些關鍵漏洞,尤其涉及 DRAM 庫。其中一個值得注意的發現是 GPUHammer,這款工具能夠將配備 GDDR6 VRAM 的高效能 GPU 的 GPU 精度大幅降低至 1% 以下。

多倫多研究人員發現 NVIDIA RTX A6000 有類似 RowHammer 的威脅,危及 AI 模式的可靠性

多倫多大學的研究人員揭示了 RowHammer 攻擊如何透過導致 GPU 記憶體中的位元翻轉來破壞 AI 模型的完整性。他們的實驗表明,這個 RowHammer 漏洞不僅會影響傳統的記憶體單元,還會對 GPU 記憶體系統構成重大風險。

該團隊專門針對 NVIDIA RTX A6000 中的 GDDR6 VRAM 進行了測試,結果表明,透過在 DRAM 儲存體中引入位元翻轉,GPU 處理 AI 模型的效率會顯著下降。值得注意的是,即使在啟用了硬體防禦措施(例如 DRAM 目標更新率 (TRR))的情況下,這種效能下降仍然會發生。例如,FP16 值中一位的更改,就會導致多個關鍵 ImageNet 模型的 DNN 預測準確率從 80% 降至僅 0.1%。

RTX A6000 翻轉
來源:gpuhammer.com

GPUHammer 實現的流程包括三個關鍵步驟:

  • 逆向工程 DRAM 儲存體映射
  • 最大限度提高錘擊效率
  • 與 DRAM 刷新周期同步

研究人員的網站上提供了這些方法的詳細說明,其中說明了他們如何透過對每個翻轉執行約 12, 000 次激活來激活四個 DRAM 存儲體中的單位翻轉。雖然 RTX A6000 上的 GDDR6 記憶體被發現有漏洞,但 RTX 3080 等其他 GPU 展現出了抵禦此類攻擊的韌性。

有趣的是,在 NVIDIA RTX 5090 以及使用高頻寬記憶體 (HBM) 的 A100 和 H100 等資料中心型號中均未偵測到任何位元翻轉。對於 RTX A6000 的用戶來說,無需立即擔心;啟用糾錯碼 (ECC) 可以有效識別並糾正這些單位翻轉,從而大大減輕 GPUHammer 的影響。

然而,使用者應注意,啟用 ECC 可能會導致效能損失。報告顯示,在機器學習推理工作負載期間,RTX A6000 的效能可能會下降高達 10%,同時可用 VRAM 容量也會減少高達 6.25%。 NVIDIA 已主動發布安全公告以解決此問題,建議在受影響的 GPU 上啟動系統級 ECC。值得注意的是,許多當代 GPU(包括 Hopper 和 Blackwell 系列的 GPU)都預設啟用了 ECC。

有關更多詳細信息,請參閱以下來源:GPUHammerTom’s Hardware

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *