Intel wprowadza zestaw tekstur Neural Compression SDK: uzyskaj tekstury nawet 18 razy mniejsze

Intel wprowadza zestaw tekstur Neural Compression SDK: uzyskaj tekstury nawet 18 razy mniejsze

Podczas GDC 2026 Marissa Dubois, inżynier grafiki w firmie Intel, zaprezentowała innowacyjne podejście firmy Intel do kompresji tekstur neuronowych, przypominające technologię NTC firmy NVIDIA. Prezentacja ta stanowiła znaczący postęp w porównaniu z wcześniejszym prototypem badawczo-rozwojowym firmy Intel zaprezentowanym na GDC 2025, ujawniając, że technologia ta rozwinęła się w w pełni funkcjonalny, samodzielny zestaw narzędzi programistycznych (SDK).

Metoda ta, zwana kompresją neuronową zestawów tekstur (Texture Set Neural Compression – TSNC), reprezentuje zaawansowane podejście do przechowywania tekstur wykorzystywanych w grach. Konwencjonalne techniki kompresji bloków GPU, obejmujące formaty od BC1 do BC7, zazwyczaj wykorzystują stałe algorytmy. Chociaż metody te są szybkie i powszechnie stosowane, często tracą znaczący potencjał kompresji. TSNC natomiast wykorzystuje potencjał uczenia maszynowego, wykorzystując małą sieć neuronową, która wykorzystuje stochastyczny spadek gradientu do efektywnego kodowania i dekodowania określonych zestawów tekstur. Ten przełom kończy się kompaktową reprezentacją przestrzeni ukrytej, którą kompaktowy perceptron wielowarstwowy może zrekonstruować w czasie wykonywania, umożliwiając odtworzenie oryginalnych danych tekstur, w tym atrybutów rozproszonych, normalnych, chropowatości, metalicznych, okluzyjnych i emisyjnych.

Na ilustracji przedstawiono diagram zatytułowany „Kompresja neuronowa 101”, który szczegółowo opisuje proces kompresji danych wejściowych przez „Koder” do „Wartości przestrzeni ukrytej” i dekompresji tych danych przez „Dekoder” w celu uzyskania „Danych wyjściowych”.Znajdują się tam również informacje na temat ustalania wag modeli dla sieci koderów i dekoderów.

Kluczowym aspektem TSNC jest zrozumienie, że zestaw tekstur, zawierający wszystkie mapy PBR dla danego materiału, często zawiera nakładające się dane w różnych kanałach. TSNC sprytnie wykorzystuje tę redundancję w sposób, którego nie udaje się osiągnąć standardowej kompresji bloków.

Tabela porównawcza zatytułowana „Porównanie piramid cech” przedstawia różne mapy tekstur i warianty przestrzeni ukrytej dla modelu dyni z obecnym logo firmy Intel.

Dwa poziomy piramid funkcji

Podstawą metodologii kompresji TSNC jest piramida cech, obejmująca cztery tekstury przestrzeni ukrytej zakodowane w standardzie BC1, które różnią się w zależności od konfiguracji rozdzielczości. Intel wprowadza dwie różne wersje, z których każda oferuje inny kompromis między jakością a wydajnością kompresji:

  • Wariant A zawiera dwa obrazy ukryte w pełnej rozdzielczości i dwa o połowie rozdzielczości. W przypadku tekstur przeznaczonych do sygnału wejściowego 4K przekłada się to na dwa obrazy ukryte w rozdzielczości 4K i dwa obrazy ukryte w rozdzielczości 2K, co daje imponującą kompresję 9x, zmniejszając rozmiar pliku z 256 MB do około 26, 8 MB. Utrata jakości percepcyjnej, oszacowana za pomocą narzędzia analitycznego FLIP firmy NVIDIA, oscyluje wokół 5%, z niewielkim wpływem na mapy normalnych.
  • Wariant B przyjmuje bardziej agresywne podejście, redukując obrazy ukryte do połowy, jednej czwartej i jednej ósmej początkowej rozdzielczości, osiągając w ten sposób kompresję ponad 17x. Jednak wariant ten wiąże się z zauważalną degradacją jakości, gdzie artefakty BC1 stają się widoczne na mapach normalnych i kanałach okluzyjnych/chropowatości otoczenia. Błąd percepcyjny oceniany przez FLIP mieści się w przedziale 6–7%, co, jak przyznaje Intel, „jest wystarczające, aby być zauważalnym dla widza”.W związku z tym wariant B najlepiej sprawdza się w przypadku materiałów odległych lub drugorzędnych, gdzie zachowanie szczegółów jest mniej istotne.
Wykres zatytułowany „TSNC Variant A Compression Ratio” pokazuje, że TSNC osiąga wyższe współczynniki kompresji (od 9, 53 do 9, 59x) w porównaniu do BCx (od 4, 79 do 4, 80x) dla rozdzielczości 1K, 2K i 4K.
Slajd zatytułowany „Współczynniki kompresji” porównuje różne formaty kompresji i pokazuje, że TSNC osiąga wyższe współczynniki kompresji, wynoszące od 17, 85x do 18, 05x, w porównaniu do 4, 79x do 4, 80x w przypadku BCx. Dane ilustruje wykres.

Od czasu wprowadzenia na rynek jako prototyp badawczy oparty na PyTorch, Intel całkowicie przebudował kompresor TSNC, wykorzystując Slang Compute Shaders. Ta nowa architektura pozwala programistom na wykorzystanie tego samego kodu dekompresji na różnych platformach, w tym Unreal Engine, silnikach niestandardowych i dekompresji opartej na procesorze.

W obszarze GPU, Intel obsługuje teraz interfejs API Microsoft DirectX 12 Cooperative Vectors, wykorzystując rdzenie macierzy XMX zintegrowane w procesorach graficznych serii A i B, aby umożliwić sprzętowo przyspieszone wnioskowanie macierzowe. W systemach bez obsługi XMX, platforma korzysta ze standardowej techniki FMA (połączonego mnożenia i dodawania), kompatybilnej zarówno z architekturą Intel, jak i innych firm.

Podczas swojej prezentacji Dubois przedstawiła cztery strategie wdrażania technologii TSNC, z których każda oferuje inną równowagę między wykorzystaniem pamięci a efektywnością przestrzeni dyskowej:

  • W czasie instalacji — Skompresowane pliki są dostarczane i dekompresowane lokalnie jako część instalacji, a nieskompresowane tekstury są zachowywane w pamięci masowej użytkownika, co zapewnia optymalną oszczędność przepustowości podczas dystrybucji.
  • W trakcie ładowania — tekstury pozostają skompresowane na dysku, a następnie dekompresują się do pamięci VRAM podczas fazy ładowania gry. Ta metoda minimalizuje zarówno rozmiar instalacji, jak i zużycie pamięci VRAM podczas ładowania.
  • W czasie strumieniowania — w połączeniu ze strumieniowaniem tekstur, tekstury są dekompresowane na żądanie, co pozwala osiągnąć równowagę między efektywnością pamięci masowej i pamięci, dodając jednocześnie pewne obciążenie wnioskowania w czasie wykonywania.
  • W momencie pobierania próbek — tekstury pozostają trwale skompresowane w pamięci VRAM i są dekodowane pojedynczo w shaderze, co maksymalizuje oszczędności w pamięci VRAM, a jednocześnie generuje stałe koszty wnioskowania.

Każda strategia wdrażania wymaga od deweloperów starannego wyboru na podstawie ich konkretnych wymagań i użytego silnika bazowego.

Slajd prezentacji zatytułowany „Szacowany czas wnioskowania na wbudowanej karcie graficznej Pantherlake B390” przedstawia wykres słupkowy pokazujący „Średnią liczbę nanosekund na piksel (im niższa wartość, tym lepiej)”, przy czym algorytm LinAlg osiąga około 3, 4-krotny wzrost szybkości na piksel w porównaniu z algorytmem FMA.

Testy firmy Intel przeprowadzone na laptopie Panther Lake z wykorzystaniem zintegrowanej karty graficznej B390 przy pełnym obciążeniu shaderowym w rozdzielczości 1080p dały następujące wyniki:

  • Ścieżka FMA: 0, 661 nanosekundy na piksel
  • Ścieżka algebry liniowej XMX: 0, 194 nanosekundy na piksel

Świadczy to o znacznym, 3, 4-krotnym przyspieszeniu, przypisywanym sprzętowo akcelerowanym obliczeniom macierzowym. Korzystne wskaźniki wydajności zaobserwowane w systemach zintegrowanych sugerują, że wdrożenie z dokładnością do jednego piksela może być bardziej wykonalne niż wcześniej przewidywano. W przypadku oddzielnych procesorów graficznych można spodziewać się jeszcze niższych kosztów. Intel przewiduje wprowadzenie wersji alfa pakietu Texture Set Neural Compression SDK jeszcze w tym roku, a następnie testów beta i publicznego udostępnienia, choć dokładny termin pozostaje niepotwierdzony.

Źródło i obrazy

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *