
I recenti progressi nella tecnologia GPU hanno rivelato vulnerabilità critiche, in particolare per quanto riguarda i banchi DRAM. Una delle scoperte più significative è GPUHammer, uno strumento in grado di ridurre drasticamente la precisione della GPU a meno dell’1% su GPU ad alte prestazioni dotate di VRAM GDDR6.
I ricercatori di Toronto identificano minacce in stile RowHammer per NVIDIA RTX A6000, compromettendo l’affidabilità del modello di intelligenza artificiale
I ricercatori dell’Università di Toronto hanno fatto luce su come gli attacchi RowHammer compromettano l’integrità dei modelli di intelligenza artificiale causando inversioni di bit nella memoria GPU. Questa vulnerabilità RowHammer non solo colpisce le celle di memoria convenzionali, ma rappresenta anche un rischio significativo per i sistemi di memoria GPU, come dimostrato dai loro esperimenti.
Il team ha preso di mira specificamente la VRAM GDDR6 della NVIDIA RTX A6000, dimostrando che inducendo inversioni di bit nei banchi DRAM, l’efficienza della GPU nell’elaborazione dei modelli di intelligenza artificiale ne risentiva notevolmente. Sorprendentemente, questo degrado si è verificato anche in scenari in cui erano attive difese hardware, come il refresh rate target della DRAM (TRR).Ad esempio, un’alterazione di un singolo bit nel valore FP16 ha ridotto l’accuratezza della previsione DNN dall’80% a un mero 0, 1% su diversi modelli ImageNet chiave.

Il processo implementato da GPUHammer consiste in tre passaggi critici:
- Mappature delle banche DRAM tramite reverse engineering
- Massimizzazione dell’efficienza di martellamento
- Sincronizzazione con cicli di aggiornamento DRAM
Spiegazioni dettagliate di questi metodi sono disponibili sul sito web dei ricercatori, e illustrano come hanno attivato i flip a singolo bit su quattro banchi DRAM, eseguendo circa 12.000 attivazioni per ogni flip. Mentre la memoria GDDR6 della RTX A6000 è risultata vulnerabile, altre GPU come la RTX 3080 hanno dimostrato resilienza contro tali attacchi.
È interessante notare che non sono stati rilevati bit flip nella NVIDIA RTX 5090 o in modelli di data center come A100 e H100, che utilizzano la memoria ad alta larghezza di banda (HBM).Per gli utenti della RTX A6000, non c’è motivo di allarme immediato; gli effetti di GPUHammer possono essere ampiamente mitigati abilitando l’Error-Correcting Code (ECC), che identifica e corregge efficacemente questi bit flip.
Tuttavia, gli utenti devono essere consapevoli che l’attivazione dell’ECC può comportare compromessi in termini di prestazioni. I report indicano una potenziale riduzione delle prestazioni dell’RTX A6000 fino al 10% durante i carichi di lavoro di inferenza di machine learning, insieme a una riduzione della capacità VRAM utilizzabile fino al 6, 25%.NVIDIA ha affrontato proattivamente questo problema emettendo un avviso di sicurezza, raccomandando l’attivazione dell’ECC A LIVELLO DI SISTEMA sulle GPU interessate.È importante notare che molte GPU moderne, comprese quelle delle famiglie Hopper e Blackwell, sono dotate di ECC abilitato di default.
Per ulteriori dettagli, fare riferimento a queste fonti: GPUHammer e Tom’s Hardware.
Lascia un commento