Las GPU NVIDIA GeForce RTX 5090 y RTX PRO 6000 sufren un error de virtualización; es necesario reiniciar el sistema por completo para recuperarse.

Las GPU NVIDIA GeForce RTX 5090 y RTX PRO 6000 sufren un error de virtualización; es necesario reiniciar el sistema por completo para recuperarse.

Según se informa, las unidades de procesamiento de gráficos de primer nivel de NVIDIA, la GeForce RTX 5090 y la RTX PRO 6000, enfrentan un problema preocupante que las hace incapaces de responder durante las operaciones de virtualización.

Se detectan problemas críticos de virtualización en las GPU Blackwell de NVIDIA

CloudRift, un servicio líder en la nube de GPU para desarrolladores, fue el primero en señalar la inestabilidad de las tarjetas gráficas de alto rendimiento de NVIDIA. Observaron que, tras solo unos días de uso en entornos de máquinas virtuales (VM), estas GPU mostraban una incapacidad total para responder. Cabe destacar que, una vez que se produce el problema, el acceso a las GPU afectadas solo se restablecía reiniciando el sistema del nodo. Este alarmante problema parece limitarse a los modelos RTX 5090 y RTX PRO 6000, mientras que otras GPU, como la RTX 4090, las Hopper H100 y las B200 basadas en Blackwell, no se vieron afectadas por el momento.

El problema principal surge cuando la GPU se asigna a una máquina virtual (VM) a través del controlador de dispositivo VFIO. Tras un restablecimiento de nivel de función (FLR), la GPU deja de responder, lo que provoca un bloqueo suave del kernel que detiene las operaciones tanto en el sistema host como en el cliente. Para resolver el bloqueo, es necesario reiniciar el equipo host, lo que genera importantes complicaciones para CloudRift debido a la gran cantidad de máquinas invitadas que gestiona.

Mensajes de error relacionados con RTX 5090 y RTX PRO 6000 durante las operaciones de VM.
Créditos de la imagen: CloudRift

Este problema se extiende más allá de CloudRift. Un usuario de los foros de Proxmox reportó una experiencia similar, donde se produjo un bloqueo completo del sistema tras apagar un cliente de Windows. Sorprendentemente, NVIDIA ha reconocido la situación, confirmando que han reproducido el problema con éxito y que están trabajando activamente para encontrar una solución. Aún se espera la confirmación oficial de NVIDIA, pero los primeros indicios sugieren que el problema está asociado principalmente con sus GPU de arquitectura Blackwell.

Para abordar este desafío crítico, CloudRift ha anunciado una recompensa de $1, 000 por errores para incentivar a los desarrolladores a solucionar o mitigar el problema. Dada la importancia de estas GPU para cargas de trabajo críticas de IA, se anticipa una respuesta inmediata de NVIDIA ante la creciente presión para resolver esta situación rápidamente.

Fuente e imágenes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *