
Najważniejsze procesory graficzne firmy NVIDIA, GeForce RTX 5090 i RTX PRO 6000, podobno zmagają się z problemem powodującym brak reakcji podczas operacji wirtualizacyjnych.
W procesorach graficznych Blackwell firmy NVIDIA wykryto krytyczne problemy z wirtualizacją
CloudRift, wiodąca usługa chmurowa dla deweloperów kart graficznych, jako pierwsza zwróciła uwagę na niestabilność związaną z wysokowydajnymi kartami graficznymi NVIDIA. Zaobserwowano, że po zaledwie kilku dniach użytkowania w środowiskach maszyn wirtualnych (VM) te karty graficzne całkowicie przestają reagować. Co istotne, po wystąpieniu problemu dostęp do uszkodzonych kart graficznych można przywrócić jedynie poprzez ponowne uruchomienie systemu węzłów. Ten niepokojący problem wydaje się dotyczyć jedynie modeli RTX 5090 i RTX PRO 6000, pozostawiając inne karty graficzne, takie jak RTX 4090, Hopper H100 i B200 oparte na procesorach Blackwell, na razie bez zmian.
Sedno problemu pojawia się, gdy GPU jest przydzielane do maszyny wirtualnej za pośrednictwem sterownika urządzenia VFIO. Po resecie poziomu funkcji (FLR), GPU nie odpowiada, powodując „miękką blokadę” jądra, która skutecznie zatrzymuje operacje zarówno na systemie hosta, jak i klienta. Aby rozwiązać ten impas, konieczne jest ponowne uruchomienie komputera hosta, co stwarza znaczne komplikacje dla CloudRift ze względu na dużą liczbę zarządzanych przez niego maszyn gościnnych.

Problem ten wykracza poza platformę CloudRift. Użytkownik na forach Proxmox zgłosił podobny przypadek, w którym po wyłączeniu klienta Windows nastąpiła całkowita awaria systemu. Co ciekawe, firma NVIDIA potwierdziła problem, potwierdzając, że udało się go odtworzyć i aktywnie pracuje nad jego rozwiązaniem. Nadal oczekuje się na oficjalne potwierdzenie od firmy NVIDIA, ale wstępne informacje sugerują, że problem dotyczy głównie ich procesorów graficznych z architekturą Blackwell.
W ramach rozwiązywania tego krytycznego problemu, CloudRift ogłosił nagrodę w wysokości 1000 dolarów, aby zachęcić deweloperów do naprawy lub złagodzenia problemu. Biorąc pod uwagę znaczenie tych procesorów graficznych dla krytycznych obciążeń AI, spodziewane jest szybkie działanie ze strony firmy NVIDIA, ponieważ presja na szybkie rozwiązanie problemu rośnie.
Dodaj komentarz