Untersuchungen zeigen, dass GPUHammer die Genauigkeit von KI-Modellen auf GPUs mit GDDR6-Speicher von 80 % auf nur 0,1 % verringern kann

Untersuchungen zeigen, dass GPUHammer die Genauigkeit von KI-Modellen auf GPUs mit GDDR6-Speicher von 80 % auf nur 0,1 % verringern kann

Jüngste Fortschritte in der GPU-Technologie haben kritische Schwachstellen aufgedeckt, insbesondere bei DRAM-Bänken. Eine der bemerkenswerten Entdeckungen ist der GPUHammer, ein Tool, das die GPU-Genauigkeit bei Hochleistungs-GPUs mit GDDR6-VRAM drastisch auf unter 1 % reduzieren kann.

Forscher aus Toronto identifizieren Bedrohungen im RowHammer-Stil für NVIDIA RTX A6000, die die Zuverlässigkeit von KI-Modellen beeinträchtigen

Forscher der Universität Toronto haben herausgefunden, wie RowHammer-Angriffe die Integrität von KI-Modellen beeinträchtigen, indem sie Bit-Flips im GPU-Speicher verursachen. Diese RowHammer-Schwachstelle betrifft nicht nur konventionelle Speicherzellen, sondern stellt, wie ihre Experimente zeigen, auch ein erhebliches Risiko für GPU-Speichersysteme dar.

Das Team untersuchte speziell den GDDR6-VRAM der NVIDIA RTX A6000 und zeigte, dass durch Bit-Flips in den DRAM-Bänken die Effizienz der GPU bei der Verarbeitung von KI-Modellen erheblich beeinträchtigt wurde. Bemerkenswerterweise trat diese Verschlechterung sogar in Szenarien auf, in denen Hardware-Schutzmechanismen wie die DRAM-Zielaktualisierungsrate (TRR) aktiv waren. Beispielsweise reduzierte eine Änderung eines einzigen Bits im FP16-Wert die DNN-Vorhersagegenauigkeit bei mehreren wichtigen ImageNet-Modellen von 80 % auf lediglich 0, 1 %.

RTX A6000 Flips
Bildnachweis: gpuhammer.com

Der von GPUHammer implementierte Prozess besteht aus drei kritischen Schritten:

  • Reverse-Engineering von DRAM-Bankzuordnungen
  • Maximierung der Hämmereffizienz
  • Synchronisierung mit DRAM-Aktualisierungszyklen

Detaillierte Erklärungen dieser Methoden finden sich auf der Website der Forscher. Sie veranschaulichen, wie sie die Einzelbit-Flips über vier DRAM-Bänke hinweg aktivierten, indem sie für jeden Flip etwa 12.000 Aktivierungen ausführten. Während der GDDR6-Speicher der RTX A6000 als anfällig eingestuft wurde, zeigten sich andere GPUs wie die RTX 3080 widerstandsfähig gegen solche Angriffe.

Interessanterweise wurden weder bei der NVIDIA RTX 5090 noch bei Rechenzentrumsmodellen wie der A100 und H100, die High Bandwidth Memory (HBM) nutzen, Bit-Flips festgestellt. Für Nutzer der RTX A6000 besteht kein unmittelbarer Grund zur Beunruhigung; die Auswirkungen des GPUHammers lassen sich durch die Aktivierung von Error-Correcting Code (ECC), der diese Einzelbit-Flips effektiv erkennt und korrigiert, weitgehend abmildern.

Nutzer sollten sich jedoch bewusst sein, dass die Aktivierung von ECC zu Leistungseinbußen führen kann. Berichte deuten auf eine mögliche Leistungsreduzierung der RTX A6000 um bis zu 10 % bei Machine-Learning-Inferenz-Workloads sowie eine Reduzierung der nutzbaren VRAM-Kapazität um bis zu 6, 25 % hin. NVIDIA hat dieses Problem proaktiv mit einer Sicherheitsempfehlung angegangen und empfiehlt die Aktivierung von SYSTEM-LEVEL ECC auf betroffenen GPUs. Es ist erwähnenswert, dass viele aktuelle GPUs, einschließlich derer der Hopper- und Blackwell-Familien, standardmäßig mit aktiviertem ECC ausgestattet sind.

Weitere Einzelheiten finden Sie in diesen Quellen: GPUHammer und Tom’s Hardware.

Quelle & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert