
As principais unidades de processamento gráfico da NVIDIA, a GeForce RTX 5090 e a RTX PRO 6000, estão enfrentando um problema preocupante que as deixa sem resposta durante operações de virtualização.
Problemas críticos de virtualização encontrados nas GPUs Blackwell da NVIDIA
A CloudRift, um serviço líder em nuvem de GPU para desenvolvedores, foi a primeira a destacar a instabilidade em torno das placas de vídeo de alto desempenho da NVIDIA. Eles observaram que, após apenas alguns dias de uso em ambientes de máquina virtual (VM), essas GPUs apresentam total falta de resposta. Notavelmente, uma vez que o problema ocorre, o acesso às GPUs afetadas só é restaurado reiniciando o sistema de nós. Esse problema alarmante parece estar restrito aos modelos RTX 5090 e RTX PRO 6000, deixando outras GPUs, como a RTX 4090, a Hopper H100 e a B200 baseada em Blackwell, inalteradas por enquanto.
O cerne do problema surge quando a GPU é alocada a uma VM por meio do driver de dispositivo VFIO. Após uma Redefinição de Nível de Função (FLR), a GPU não responde, causando um “soft lock” no kernel que efetivamente interrompe as operações nos sistemas host e cliente. Para resolver o deadlock, é necessária uma reinicialização da máquina host, criando complicações significativas para a CloudRift devido ao alto número de máquinas convidadas que gerencia.

Este problema vai além do CloudRift. Um usuário nos fóruns do Proxmox relatou uma experiência semelhante, na qual ocorreu uma falha completa do sistema após o desligamento de um cliente Windows. Notavelmente, a NVIDIA reconheceu a situação, confirmando que conseguiu reproduzir o problema e está trabalhando ativamente em uma solução. A confirmação oficial da NVIDIA ainda é aguardada, mas os primeiros indícios sugerem que o problema está principalmente associado às suas GPUs de arquitetura Blackwell.
Como parte da abordagem a esse desafio crítico, a CloudRift anunciou uma recompensa de US$ 1.000 para incentivar os desenvolvedores a corrigir ou mitigar o problema. Dada a importância dessas GPUs para cargas de trabalho críticas de IA, espera-se uma ação imediata da NVIDIA, à medida que a pressão para resolver essa situação rapidamente aumenta.
Deixe um comentário