
GPU 技术的最新进展暴露出了一些关键漏洞,尤其涉及 DRAM 库。其中一个值得注意的发现是 GPUHammer,这款工具能够将配备 GDDR6 VRAM 的高性能 GPU 的 GPU 精度大幅降低至 1% 以下。
多伦多研究人员发现 NVIDIA RTX A6000 存在类似 RowHammer 的威胁,危及 AI 模型的可靠性
多伦多大学的研究人员揭示了 RowHammer 攻击如何通过导致 GPU 内存中的位翻转来破坏 AI 模型的完整性。他们的实验表明,该 RowHammer 漏洞不仅会影响传统的内存单元,还会对 GPU 内存系统构成重大风险。
该团队专门针对 NVIDIA RTX A6000 中的 GDDR6 VRAM 进行了测试,结果表明,通过在 DRAM 存储体中引入位翻转,GPU 处理 AI 模型的效率会显著下降。值得注意的是,即使在启用了硬件防御措施(例如 DRAM 目标刷新率 (TRR))的情况下,这种性能下降仍然会发生。例如,FP16 值中一位的更改,就会导致多个关键 ImageNet 模型的 DNN 预测准确率从 80% 降至仅 0.1%。

GPUHammer 实现的流程包括三个关键步骤:
- 逆向工程 DRAM 存储体映射
- 最大限度提高锤击效率
- 与 DRAM 刷新周期同步
研究人员的网站上提供了这些方法的详细说明,其中说明了他们如何通过对每个翻转执行约 12, 000 次激活来激活四个 DRAM 存储体中的单位翻转。虽然 RTX A6000 上的 GDDR6 内存被发现存在漏洞,但 RTX 3080 等其他 GPU 展现出了抵御此类攻击的韧性。
有趣的是,在 NVIDIA RTX 5090 以及使用高带宽内存 (HBM) 的 A100 和 H100 等数据中心型号中均未检测到任何位翻转。对于 RTX A6000 的用户来说,无需立即担心;启用纠错码 (ECC) 可以有效识别并纠正这些单位翻转,从而大大减轻 GPUHammer 的影响。
然而,用户应注意,启用 ECC 可能会导致性能损失。报告显示,在机器学习推理工作负载期间,RTX A6000 的性能可能会下降高达 10%,同时可用 VRAM 容量也会减少高达 6.25%。NVIDIA 已主动发布安全公告以解决此问题,建议在受影响的 GPU 上激活系统级 ECC。值得注意的是,许多当代 GPU(包括 Hopper 和 Blackwell 系列的 GPU)都默认启用了 ECC。
有关更多详细信息,请参阅以下来源:GPUHammer和Tom’s Hardware。
发表回复