
Bei den führenden Grafikprozessoren von NVIDIA, der GeForce RTX 5090 und der RTX PRO 6000, liegt Berichten zufolge ein beunruhigendes Problem vor, das dazu führt, dass sie bei Virtualisierungsvorgängen nicht mehr reagieren.
Kritische Virtualisierungsprobleme in NVIDIAs Blackwell-GPUs gefunden
CloudRift, ein führender GPU-Cloud-Dienst für Entwickler, hat als Erster auf die Instabilität der Hochleistungsgrafikkarten von NVIDIA hingewiesen. Das Unternehmen stellte fest, dass diese GPUs bereits nach wenigen Tagen Nutzung in virtuellen Maschinen (VM) völlig nicht mehr reagierten. Bemerkenswerterweise lässt sich der Zugriff auf die betroffenen GPUs nach Auftreten des Problems nur durch einen Neustart des Knotensystems wiederherstellen. Dieses besorgniserregende Problem scheint auf die Modelle RTX 5090 und RTX PRO 6000 beschränkt zu sein. Andere GPUs wie die RTX 4090, Hopper H100s und die Blackwell-basierten B200s sind vorerst nicht betroffen.
Der Kern des Problems entsteht, wenn die GPU über den VFIO-Gerätetreiber einer VM zugewiesen wird. Nach einem Function Level Reset (FLR) reagiert die GPU nicht mehr, was zu einem Kernel-Softlock führt, der den Betrieb sowohl auf dem Host- als auch auf dem Client-System effektiv stoppt. Um den Deadlock zu beheben, ist ein Neustart des Host-Rechners erforderlich, was aufgrund der hohen Anzahl verwalteter Gast-Rechner erhebliche Komplikationen für CloudRift mit sich bringt.

Dieses Problem betrifft nicht nur CloudRift. Ein Nutzer im Proxmox-Forum berichtete von einem ähnlichen Fall, bei dem es nach dem Herunterfahren eines Windows-Clients zu einem vollständigen Systemabsturz kam. Bemerkenswerterweise hat NVIDIA die Situation bestätigt und bestätigt, dass das Problem erfolgreich reproduziert wurde und aktiv an einer Lösung gearbeitet wird. Eine offizielle Bestätigung von NVIDIA steht noch aus, aber erste Hinweise deuten darauf hin, dass das Problem hauptsächlich mit den GPUs der Blackwell-Architektur zusammenhängt.
Um diese kritische Herausforderung zu bewältigen, hat CloudRift eine Bug-Bounty in Höhe von 1.000 US-Dollar ausgelobt, um Entwickler zu motivieren, das Problem zu beheben oder zu entschärfen. Angesichts der Bedeutung dieser GPUs für kritische KI-Workloads wird von NVIDIA schnelles Handeln erwartet, da der Druck steigt, das Problem schnell zu lösen.
Schreibe einen Kommentar