Badania pokazują, że GPUHammer może zmniejszyć dokładność modelu AI na procesorach graficznych z pamięcią GDDR6 z 80% do zaledwie 0,1%.

Badania pokazują, że GPUHammer może zmniejszyć dokładność modelu AI na procesorach graficznych z pamięcią GDDR6 z 80% do zaledwie 0,1%.

Najnowsze postępy w technologii GPU ujawniły krytyczne luki w zabezpieczeniach, szczególnie w bankach DRAM. Jednym z istotnych odkryć jest GPUHammer, narzędzie zdolne do drastycznego obniżenia dokładności GPU do poziomu poniżej 1% w wysokowydajnych procesorach graficznych wyposażonych w pamięć VRAM GDDR6.

Naukowcy z Toronto zidentyfikowali zagrożenia dla kart NVIDIA RTX A6000, podobne do tych z RowHammer, które zagrażają niezawodności modelu AI

Naukowcy z Uniwersytetu w Toronto rzucili światło na to, jak ataki RowHammer naruszają integralność modeli sztucznej inteligencji (AI), powodując przeskoki bitów w pamięci GPU. Ta luka w zabezpieczeniach RowHammer nie tylko wpływa na konwencjonalne komórki pamięci, ale także stanowi poważne zagrożenie dla systemów pamięci GPU, co potwierdzają ich eksperymenty.

Zespół skupił się konkretnie na pamięci VRAM GDDR6 w karcie NVIDIA RTX A6000, wykazując, że indukowanie przeskoków bitowych w bankach DRAM znacząco obniżało wydajność procesora graficznego w przetwarzaniu modeli AI. Co ciekawe, spadek ten występował nawet w scenariuszach, w których aktywne były zabezpieczenia sprzętowe, takie jak docelowa częstotliwość odświeżania pamięci DRAM (TRR).Na przykład, zmiana jednego bitu w wartości FP16 zmniejszyła dokładność predykcji DNN z 80% do zaledwie 0, 1% w kilku kluczowych modelach ImageNet.

RTX A6000 odwraca się
Źródło: gpuhammer.com

Proces wdrożony przez GPUHammer składa się z trzech kluczowych kroków:

  • Inżynieria wsteczna mapowań banków pamięci DRAM
  • Maksymalizacja wydajności młotkowania
  • Synchronizacja z cyklami odświeżania pamięci DRAM

Szczegółowe wyjaśnienia tych metod są dostępne na stronie internetowej badaczy, ilustrując, w jaki sposób aktywowali oni przeskoki pojedynczych bitów w czterech bankach DRAM, wykonując około 12 000 aktywacji dla każdego przeskoku. Chociaż pamięć GDDR6 w RTX A6000 okazała się podatna na ataki, inne procesory graficzne, takie jak RTX 3080, wykazały odporność na tego typu ataki.

Co ciekawe, nie wykryto żadnych przeskoków bitów w kartach NVIDIA RTX 5090 ani w modelach dla centrów danych, takich jak A100 i H100, które wykorzystują pamięć o dużej przepustowości (HBM).Użytkownicy kart RTX A6000 nie mają bezpośredniego powodu do niepokoju; skutki działania GPUHammera można w znacznym stopniu złagodzić, włączając funkcję ECC (Error-Correcting Code), która skutecznie identyfikuje i koryguje te przeskoki bitów.

Użytkownicy powinni jednak pamiętać, że włączenie funkcji ECC może prowadzić do kompromisów w zakresie wydajności. Raporty wskazują na potencjalny spadek wydajności karty RTX A6000 nawet o 10% podczas obciążeń związanych z inferencją uczenia maszynowego, a także na zmniejszenie użytecznej pojemności pamięci VRAM nawet o 6, 25%.Firma NVIDIA aktywnie zajęła się tym problemem, publikując komunikat bezpieczeństwa, zalecający aktywację funkcji ECC NA POZIOMIE SYSTEMU na dotkniętych tym problemem procesorach graficznych. Warto zauważyć, że wiele współczesnych procesorów graficznych, w tym te z rodzin Hopper i Blackwell, ma domyślnie włączoną funkcję ECC.

Więcej szczegółów znajdziesz w następujących źródłach: GPUHammer i Tom’s Hardware.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *