
Les récentes avancées technologiques des GPU ont révélé des vulnérabilités critiques, notamment au niveau des banques de DRAM. Parmi les découvertes notables figure GPUHammer, un outil capable de réduire drastiquement la précision des GPU à moins de 1 % sur les GPU hautes performances équipés de VRAM GDDR6.
Des chercheurs de Toronto identifient des menaces de type RowHammer sur la carte graphique NVIDIA RTX A6000, compromettant la fiabilité du modèle d’IA.
Des chercheurs de l’Université de Toronto ont mis en lumière la manière dont les attaques RowHammer compromettent l’intégrité des modèles d’IA en provoquant des inversions de bits dans la mémoire GPU. Cette vulnérabilité RowHammer affecte non seulement les cellules mémoire conventionnelles, mais représente également un risque important pour les systèmes de mémoire GPU, comme le démontrent leurs expériences.
L’équipe a spécifiquement ciblé la VRAM GDDR6 de la NVIDIA RTX A6000, démontrant qu’en induisant des inversions de bits dans les banques de DRAM, l’efficacité du GPU dans le traitement des modèles d’IA était considérablement affectée. Fait remarquable, cette dégradation se produisait même dans des scénarios où les défenses matérielles, telles que la fréquence de rafraîchissement cible de la DRAM (TRR), étaient actives. Par exemple, une modification d’un seul bit de la valeur FP16 réduisait la précision de prédiction DNN de 80 % à seulement 0, 1 % sur plusieurs modèles ImageNet clés.

Le processus mis en œuvre par GPUHammer comprend trois étapes critiques :
- Rétro-ingénierie des mappages de banques DRAM
- Maximiser l’efficacité du martelage
- Synchronisation avec les cycles de rafraîchissement de la DRAM
Des explications détaillées de ces méthodes sont disponibles sur le site web des chercheurs, illustrant comment ils ont activé les basculements d’un bit sur quatre banques de DRAM en exécutant environ 12 000 activations pour chaque basculement. Si la mémoire GDDR6 de la RTX A6000 s’est avérée vulnérable, d’autres GPU, comme la RTX 3080, ont démontré leur résilience face à de telles attaques.
Il est intéressant de noter qu’aucun basculement de bits n’a été détecté sur la NVIDIA RTX 5090 ni sur les modèles pour centres de données comme les A100 et H100, qui utilisent la mémoire à large bande passante (HBM).Pour les utilisateurs de la RTX A6000, il n’y a pas lieu de s’inquiéter immédiatement ; les effets du GPUHammer peuvent être largement atténués en activant le code de correction d’erreurs (ECC), qui identifie et corrige efficacement ces basculements de bits.
Cependant, les utilisateurs doivent être conscients que l’activation de l’ECC peut entraîner des compromis en termes de performances. Des rapports indiquent une baisse potentielle des performances de la RTX A6000 pouvant atteindre 10 % lors des charges d’inférence d’apprentissage automatique, ainsi qu’une réduction de la capacité VRAM utilisable pouvant atteindre 6, 25 %.NVIDIA a résolu ce problème de manière proactive en publiant un avis de sécurité recommandant l’activation de l’ECC AU NIVEAU DU SYSTÈME sur les GPU concernés. Il est important de noter que de nombreux GPU contemporains, notamment ceux des familles Hopper et Blackwell, sont livrés avec l’ECC activé par défaut.
Pour plus de détails, veuillez vous référer à ces sources : GPUHammer et Tom’s Hardware.
Laisser un commentaire