Les GPU NVIDIA GeForce RTX 5090 et RTX PRO 6000 sont touchés par un bug de virtualisation. Un redémarrage complet du système est nécessaire pour la récupération.

Les GPU NVIDIA GeForce RTX 5090 et RTX PRO 6000 sont touchés par un bug de virtualisation. Un redémarrage complet du système est nécessaire pour la récupération.

Les principales unités de traitement graphique de NVIDIA, la GeForce RTX 5090 et la RTX PRO 6000, seraient confrontées à un problème troublant qui les rend insensibles lors des opérations de virtualisation.

Problèmes critiques de virtualisation détectés dans les GPU Blackwell de NVIDIA

CloudRift, un service cloud GPU de premier plan pour les développeurs, a été le premier à signaler l’instabilité des cartes graphiques hautes performances de NVIDIA. Ils ont constaté qu’après seulement quelques jours d’utilisation dans des environnements de machines virtuelles (VM), ces GPU présentaient une absence totale de réponse. Notamment, une fois le problème apparu, l’accès aux GPU concernés n’est rétabli qu’en redémarrant le système de nœuds. Ce problème alarmant semble limité aux modèles RTX 5090 et RTX PRO 6000, laissant les autres GPU tels que les RTX 4090, Hopper H100 et B200 basés sur Blackwell indemnes pour le moment.

Le cœur du problème survient lorsque le GPU est alloué à une machine virtuelle via le pilote de périphérique VFIO. Suite à une réinitialisation du niveau de fonction (FLR), le GPU ne répond plus, ce qui provoque un « verrouillage logiciel » du noyau qui interrompt les opérations sur les systèmes hôte et client. Pour résoudre ce blocage, un redémarrage de la machine hôte est nécessaire, ce qui engendre des complications importantes pour CloudRift en raison du nombre élevé de machines invitées gérées.

Messages d'erreur liés à RTX 5090 et RTX PRO 6000 pendant les opérations de VM.
Crédits image : CloudRift

Ce problème s’étend au-delà de CloudRift. Un utilisateur des forums Proxmox a signalé une expérience similaire : un plantage complet du système s’est produit après l’arrêt d’un client Windows. Fait remarquable, NVIDIA a reconnu la situation, confirmant avoir reproduit le problème avec succès et travaillant activement à sa résolution. Une confirmation officielle de NVIDIA est toujours attendue, mais les premières indications suggèrent que le problème est principalement lié à ses GPU à architecture Blackwell.

Pour relever ce défi crucial, CloudRift a annoncé une prime de 1 000 $ pour inciter les développeurs à corriger ou à atténuer le problème. Compte tenu de l’importance de ces GPU pour les charges de travail critiques de l’IA, une action rapide de NVIDIA est attendue, la pression s’accroissant pour résoudre rapidement cette situation.

Source et images

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *