
Los avances recientes en la tecnología de GPU han revelado vulnerabilidades críticas, especialmente en los bancos de DRAM. Uno de los hallazgos más destacados es GPUHammer, una herramienta capaz de reducir drásticamente la precisión de la GPU a menos del 1 % en GPU de alto rendimiento equipadas con VRAM GDDR6.
Investigadores de Toronto identifican amenazas tipo RowHammer para NVIDIA RTX A6000, lo que compromete la confiabilidad del modelo de IA.
Investigadores de la Universidad de Toronto han esclarecido cómo los ataques RowHammer comprometen la integridad de los modelos de IA al provocar cambios de bits en la memoria de la GPU. Esta vulnerabilidad de RowHammer no solo afecta a las celdas de memoria convencionales, sino que también supone un riesgo significativo para los sistemas de memoria de la GPU, como demuestran sus experimentos.
El equipo se centró específicamente en la VRAM GDDR6 de la NVIDIA RTX A6000, demostrando que, al inducir cambios de bits en los bancos de DRAM, la eficiencia de la GPU al procesar modelos de IA se vio considerablemente afectada. Sorprendentemente, esta degradación se produjo incluso en escenarios donde las defensas de hardware, como la frecuencia de actualización objetivo (TRR) de la DRAM, estaban activas. Por ejemplo, la alteración de un solo bit en el valor de FP16 redujo la precisión de la predicción de DNN del 80 % a tan solo el 0, 1 % en varios modelos clave de ImageNet.

El proceso implementado por GPUHammer consta de tres pasos críticos:
- Ingeniería inversa de asignaciones de bancos DRAM
- Maximizar la eficiencia del martilleo
- Sincronización con ciclos de actualización de DRAM
Las explicaciones detalladas de estos métodos están disponibles en el sitio web de los investigadores, donde se ilustra cómo activaron las inversiones de un solo bit en cuatro bancos de DRAM, ejecutando aproximadamente 12 000 activaciones por cada inversión. Si bien la memoria GDDR6 de la RTX A6000 resultó vulnerable, otras GPU, como la RTX 3080, demostraron resiliencia ante este tipo de ataques.
Curiosamente, no se detectaron cambios de bit en la NVIDIA RTX 5090 ni en modelos para centros de datos como la A100 y la H100, que utilizan memoria de alto ancho de banda (HBM).Para los usuarios de la RTX A6000, no hay motivo de alarma inmediato; los efectos de GPUHammer se pueden mitigar en gran medida activando el Código de Corrección de Errores (ECC), que identifica y corrige eficazmente estos cambios de bit.
Sin embargo, los usuarios deben tener en cuenta que habilitar el ECC puede afectar el rendimiento. Los informes indican una posible reducción del rendimiento de la RTX A6000 de hasta un 10 % durante las cargas de trabajo de inferencia de aprendizaje automático, junto con una reducción de la capacidad de VRAM utilizable de hasta un 6, 25 %.NVIDIA ha abordado este problema de forma proactiva mediante un aviso de seguridad que recomienda la activación del ECC a nivel de sistema en las GPU afectadas. Cabe destacar que muchas GPU actuales, incluidas las de las familias Hopper y Blackwell, vienen con el ECC habilitado por defecto.
Para obtener más detalles, consulte estas fuentes: GPUHammer y Tom’s Hardware.
Deja una respuesta