
GPU技術の近年の進歩により、特にDRAMバンクに関連する重大な脆弱性が明らかになりました。注目すべき発見の一つがGPUHammerです。これは、GDDR6 VRAMを搭載した高性能GPUにおいて、GPUの精度を1%未満まで劇的に低下させることができるツールです。
トロントの研究者らが、NVIDIA RTX A6000に対するRowHammer型の脅威を特定し、AIモデルの信頼性を低下させる
トロント大学の研究者たちは、RowHammer攻撃がGPUメモリ内でビット反転を引き起こすことでAIモデルの整合性を損なう仕組みを明らかにしました。このRowHammer脆弱性は、従来のメモリセルに影響を及ぼすだけでなく、GPUメモリシステムにも重大なリスクをもたらすことが、彼らの実験で実証されています。
研究チームは特にNVIDIA RTX A6000のGDDR6 VRAMをターゲットとし、DRAMバンクのビット反転を誘発することで、GPUのAIモデル処理効率が大幅に低下することを実証しました。驚くべきことに、この劣化はDRAMターゲットリフレッシュレート(TRR)などのハードウェア防御が有効なシナリオでも発生しました。例えば、FP16値の1ビットを変更するだけで、主要なImageNetモデルにおけるDNN予測精度は80%からわずか0.1%に低下しました。

GPUHammer によって実装されるプロセスは、次の 3 つの重要なステップで構成されます。
- DRAMバンクマッピングのリバースエンジニアリング
- ハンマー効率の最大化
- DRAMリフレッシュサイクルとの同期
これらの手法の詳細な説明は研究者のウェブサイトに掲載されており、4つのDRAMバンクにわたって1ビットの反転を約12, 000回実行することで、どのように活性化したかが示されています。RTX A6000のGDDR6メモリに脆弱性が見つかった一方で、RTX 3080などの他のGPUは、このような攻撃に対する耐性を示しました。
興味深いことに、NVIDIA RTX 5090や、高帯域幅メモリ(HBM)を採用したA100やH100などのデータセンター向けモデルでは、ビット反転は検出されませんでした。RTX A6000のユーザーにとって、直ちに心配する必要はありません。GPUHammerの影響は、これらの単一ビット反転を効果的に識別・修正するエラー訂正コード(ECC)を有効にすることで大幅に軽減できます。
ただし、ECCを有効にするとパフォーマンスが低下する可能性があることにご注意ください。報告によると、機械学習推論ワークロードにおいてRTX A6000のパフォーマンスは最大10%低下する可能性があり、使用可能なVRAM容量も最大6.25%減少する可能性があります。NVIDIAはこの問題に積極的に対処し、セキュリティアドバイザリを発行して、影響を受けるGPUでシステムレベルECCを有効にすることを推奨しています。なお、HopperファミリーやBlackwellファミリーを含む多くの最新GPUでは、ECCがデフォルトで有効になっている点にご留意ください。
詳細については、GPUHammerおよびTom’s Hardwareを参照してください。
コメントを残す