연구 결과, GPUHammer가 GDDR6 메모리 GPU의 AI 모델 정확도를 80%에서 0.1%로 낮출 수 있음이 밝혀졌습니다.

최근 GPU 기술의 발전으로 심각한 취약점이 드러났는데, 특히 DRAM 뱅크와 관련된 취약점이 두드러졌습니다.주목할 만한 발견 중 하나는 GDDR6 VRAM이 장착된 고성능 GPU에서 GPU 정확도를 1% 미만으로 크게 낮출 수 있는 도구인 GPUHammer입니다.

토론토 연구원, NVIDIA RTX A6000에 대한 RowHammer 스타일 위협 발견, AI 모델 신뢰성 손상

토론토 대학교 연구진은 RowHammer 공격이 GPU 메모리 내에서 비트 플립을 유발하여 AI 모델의 무결성을 손상시키는 방식을 밝혀냈습니다.이 RowHammer 취약점은 기존 메모리 셀에 영향을 미칠 뿐만 아니라, 실험 결과에서 알 수 있듯이 GPU 메모리 시스템에도 심각한 위험을 초래합니다.

연구팀은 특히 NVIDIA RTX A6000의 GDDR6 VRAM을 표적으로 삼아 DRAM 뱅크에서 비트 플립을 유도함으로써 GPU의 AI 모델 처리 효율이 상당히 저하됨을 보였습니다.놀랍게도 이러한 성능 저하는 DRAM 타겟 재생률(TRR)과 같은 하드웨어 방어 시스템이 활성화된 상황에서도 발생했습니다.예를 들어, FP16 값에서 단일 비트만 변경되어도 여러 주요 ImageNet 모델에서 DNN 예측 정확도가 80%에서 단 0.1%로 감소했습니다.

GPUHammer가 구현한 프로세스는 세 가지 중요한 단계로 구성됩니다.

DRAM 뱅크 매핑 역엔지니어링
망치질 효율 극대화
DRAM 새로 고침 주기와 동기화

이러한 방법에 대한 자세한 설명은 연구진 웹사이트에서 확인할 수 있으며, 각 플립에 대해 약 12, 000번의 활성화를 실행하여 4개의 DRAM 뱅크에서 단일 비트 플립을 활성화하는 방법을 보여줍니다. RTX A6000의 GDDR6 메모리는 취약한 것으로 나타났지만, RTX 3080과 같은 다른 GPU는 이러한 공격에 대한 복원력을 보여주었습니다.

흥미롭게도 NVIDIA RTX 5090이나 고대역폭 메모리(HBM)를 사용하는 A100 및 H100과 같은 데이터 센터 모델에서는 비트 플립이 감지되지 않았습니다. RTX A6000 사용자의 경우 당장 우려할 필요는 없습니다. GPUHammer의 영향은 오류 정정 코드(ECC)를 활성화하면 상당 부분 완화될 수 있습니다. ECC는 이러한 단일 비트 플립을 효과적으로 식별하고 수정합니다.

하지만 ECC를 활성화하면 성능 저하가 발생할 수 있다는 점을 사용자는 인지해야 합니다.보고서에 따르면 머신 러닝 추론 워크로드 중 RTX A6000의 성능이 최대 10%까지 저하될 수 있으며, 사용 가능한 VRAM 용량도 최대 6.25% 감소할 수 있습니다. NVIDIA는 보안 권고를 발표하고 영향을 받는 GPU에서 시스템 수준 ECC 활성화를 권장함으로써 이 문제에 적극적으로 대응했습니다. Hopper 및 Blackwell 제품군을 포함한 많은 최신 GPU는 기본적으로 ECC가 활성화되어 있다는 점에 유의해야 합니다.

자세한 내용은 다음 출처를 참조하세요: GPUHammer 및 Tom’s Hardware.

출처 및 이미지