
Avanços recentes na tecnologia de GPU revelaram vulnerabilidades críticas, particularmente envolvendo bancos de DRAM. Uma das descobertas notáveis é o GPUHammer, uma ferramenta capaz de reduzir drasticamente a precisão da GPU para menos de 1% em GPUs de alto desempenho equipadas com VRAM GDDR6.
Pesquisadores de Toronto identificam ameaças do tipo RowHammer à NVIDIA RTX A6000, comprometendo a confiabilidade do modelo de IA
Pesquisadores da Universidade de Toronto revelaram como os ataques RowHammer comprometem a integridade de modelos de IA, causando inversões de bits na memória da GPU. Essa vulnerabilidade do RowHammer não afeta apenas células de memória convencionais, mas também representa um risco significativo para os sistemas de memória da GPU, como evidenciado por seus experimentos.
A equipe visou especificamente a VRAM GDDR6 na NVIDIA RTX A6000, demonstrando que, ao induzir inversões de bits nos bancos de DRAM, a eficiência da GPU no processamento de modelos de IA sofreu consideravelmente. Notavelmente, essa degradação ocorreu mesmo em cenários onde as defesas de hardware, como a taxa de atualização (TRR) da DRAM-alvo, estavam ativas. Por exemplo, uma alteração de um único bit no valor FP16 reduziu a precisão da previsão de DNN de 80% para apenas 0, 1% em vários modelos importantes do ImageNet.

O processo implementado pelo GPUHammer consiste em três etapas críticas:
- Mapeamentos de Bancos DRAM de Engenharia Reversa
- Maximizando a eficiência do martelamento
- Sincronizando com ciclos de atualização de DRAM
Explicações detalhadas desses métodos estão disponíveis no site dos pesquisadores, ilustrando como eles ativaram as inversões de bit único em quatro bancos de DRAM, executando aproximadamente 12.000 ativações para cada inversão. Embora a memória GDDR6 da RTX A6000 tenha sido considerada vulnerável, outras GPUs, como a RTX 3080, demonstraram resiliência contra tais ataques.
Curiosamente, nenhuma inversão de bits foi detectada na NVIDIA RTX 5090 ou em modelos de data center como a A100 e a H100, que utilizam memória de alta largura de banda (HBM).Para usuários da RTX A6000, não há motivo imediato para alarme; os efeitos do GPUHammer podem ser amplamente mitigados com a ativação do Código de Correção de Erros (ECC), que identifica e corrige efetivamente essas inversões de bits individuais.
No entanto, os usuários devem estar cientes de que habilitar o ECC pode levar a perdas de desempenho. Relatórios indicam uma redução potencial no desempenho da RTX A6000 em até 10% durante cargas de trabalho de inferência de aprendizado de máquina, juntamente com uma redução da capacidade de VRAM utilizável de até 6, 25%.A NVIDIA abordou proativamente esse problema emitindo um aviso de segurança, recomendando a ativação do ECC DE NÍVEL DE SISTEMA nas GPUs afetadas. Vale ressaltar que muitas GPUs contemporâneas, incluindo as das famílias Hopper e Blackwell, vêm com o ECC habilitado por padrão.
Para mais detalhes, consulte estas fontes: GPUHammer e Tom’s Hardware.
Deixe um comentário