Intel veröffentlicht SDK zur neuronalen Komprimierung von Textursets: Texturen bis zu 18x kleiner

Auf der GDC 2026 präsentierte Marissa Dubois, Grafikingenieurin bei Intel, Intels innovativen Ansatz zur neuronalen Texturkomprimierung, der Ähnlichkeiten mit NVIDIAs NTC aufweist. Diese Präsentation markierte einen bedeutenden Fortschritt gegenüber Intels früherem F&E-Prototyp, der auf der GDC 2025 vorgestellt wurde, und zeigte, dass sich die Technologie nun zu einem vollständig ausgereiften, eigenständigen Software Development Kit (SDK) entwickelt hat.

Die als Texture Set Neural Compression (TSNC) bezeichnete Methode stellt einen fortschrittlichen Ansatz zur Speicherung von Texturen in Spielen dar. Herkömmliche GPU-Blockkomprimierungstechniken, die die Formate BC1 bis BC7 abdecken, verwenden typischerweise feste Algorithmen. Obwohl diese Methoden schnell und weit verbreitet sind, schöpfen sie oft ihr erhebliches Komprimierungspotenzial nicht aus. TSNC hingegen nutzt die Leistungsfähigkeit des maschinellen Lernens und verwendet ein kleines neuronales Netzwerk, das stochastischen Gradientenabstieg zur effizienten Kodierung und Dekodierung spezifischer Textursätze einsetzt. Dieser Durchbruch mündet in einer kompakten latenten Raumdarstellung, die ein kompaktes mehrschichtiges Perzeptron zur Laufzeit rekonstruieren kann. Dadurch wird die Wiederherstellung der ursprünglichen Texturdaten ermöglicht, einschließlich diffuser, Normal-, Rauheits-, Metallizitäts-, Umgebungsverdeckungs- und Emissionsattribute.

Das Bild ist ein Diagramm mit dem Titel „Neuronale Kompression 101“, das den Prozess der Komprimierung von Eingangsdaten durch einen „Encoder“ in „Latentraumwerte“ und deren Dekomprimierung mit einem „Decoder“ zur Erzeugung von „Ausgabedaten“ detailliert darstellt. Es enthält außerdem Informationen zur Ermittlung von Modellgewichten für Encoder- und Decoder-Netzwerke.

Ein zentraler Aspekt von TSNC ist das Verständnis, dass ein Texturset, das alle PBR-Maps für ein bestimmtes Material enthält, häufig überlappende Daten in seinen Kanälen aufweist. TSNC nutzt diese Redundanz geschickt aus, was mit herkömmlicher Blockkomprimierung nicht möglich ist.

Die zwei Ebenen der Merkmalspyramiden

Kernstück der TSNC-Komprimierungsmethode ist die Merkmalspyramide, die aus vier BC1-kodierten latenten Raumtexturen besteht, die je nach Auflösung variieren. Intel stellt zwei unterschiedliche Varianten vor, die jeweils unterschiedliche Kompromisse zwischen Qualität und Komprimierungseffizienz bieten:

Variante A verwendet zwei latente Bilder in voller Auflösung und zwei in halber Auflösung. Für Texturen, die auf 4K-Eingabe abzielen, entspricht dies zwei 4K- und zwei 2K-Latentbildern, was eine beeindruckende 9-fache Komprimierung ergibt und die Dateigröße von 256 MB auf ca.26, 8 MB reduziert. Der wahrgenommene Qualitätsverlust, der mit NVIDIAs FLIP-Analysetool ermittelt wurde, liegt bei etwa 5 %, mit geringfügigen Auswirkungen auf Normal Maps.
Variante B verfolgt einen aggressiveren Ansatz und reduziert latente Bilder auf die Hälfte, ein Viertel bzw.ein Achtel der ursprünglichen Auflösung, wodurch eine Komprimierung um mehr als das 17-Fache erreicht wird. Allerdings führt diese Variante zu einem merklichen Qualitätsverlust, da BC1-Artefakte in Normal Maps und Umgebungsverdeckungs-/Rauheitskanälen sichtbar werden. Der von FLIP ermittelte Wahrnehmungsfehler liegt zwischen 6 und 7 %, was laut Intel „für den Betrachter erkennbar“ ist. Daher eignet sich Variante B am besten für entfernte oder sekundäre Objekte, bei denen die Detailerhaltung weniger wichtig ist.

Eine Grafik mit dem Titel „TSNC Variante A Kompressionsverhältnis“ zeigt, dass TSNC über die Auflösungen 1k, 2k und 4k hinweg höhere Kompressionsverhältnisse (9, 53 bis 9, 59x) als BCx (4, 79 bis 4, 80x) erreicht.

Eine Folie mit dem Titel „Komprimierungsverhältnisse“ vergleicht verschiedene Komprimierungsformate und zeigt, dass TSNC höhere Komprimierungsverhältnisse von 17, 85x bis 18, 05x erreicht als BCx mit 4, 79x bis 4, 80x. Die Daten werden in einem Diagramm veranschaulicht.

Seit seiner Einführung als Forschungsprototyp auf Basis von PyTorch hat Intel den TSNC-Kompressor mithilfe von Slang-Compute-Shadern vollständig neu entwickelt. Diese neue Architektur ermöglicht es Entwicklern, denselben Dekomprimierungscode auf verschiedenen Plattformen zu verwenden, darunter Unreal Engine, benutzerdefinierte Engines und CPU-basierte Dekomprimierung.

Im GPU-Bereich unterstützt Intel nun Microsofts DirectX 12 Cooperative Vectors API und nutzt dabei die in GPUs der A- und B-Serie integrierten XMX-Matrixkerne für hardwarebeschleunigte Matrixinferenz. Für Systeme ohne XMX-Unterstützung greift das Framework auf das Standardverfahren FMA (Fused Multiply-and-Add) zurück, das sowohl mit Intel- als auch mit Nicht-Intel-Architekturen kompatibel ist.

In ihrem Vortrag skizzierte Dubois vier Einsatzstrategien für die TSNC-Technologie, die jeweils ein anderes Verhältnis zwischen Speichernutzung und Festplattenplatzeffizienz bieten:

Bei der Installation werden die komprimierten Dateien ausgeliefert und im Rahmen der Installation lokal dekomprimiert. Die unkomprimierten Texturen bleiben auf dem Speicher des Benutzers erhalten, um bei der Verteilung eine optimale Bandbreiteneinsparung zu erzielen.
Beim Laden bleiben die Texturen komprimiert auf der Festplatte und werden während des Ladevorgangs in den VRAM dekomprimiert. Dadurch werden sowohl die Installationsgröße als auch der VRAM-Verbrauch während des Ladevorgangs minimiert.
Zur Streaming-Zeit – In Verbindung mit dem Textur-Streaming werden Texturen bei Bedarf dekomprimiert, wodurch ein Gleichgewicht zwischen Speicher- und Arbeitsspeichereffizienz erreicht wird, während gleichzeitig eine gewisse Laufzeit-Inferenzlast hinzugefügt wird.
Zum Abtastzeitpunkt bleiben die Texturen permanent im VRAM komprimiert und werden pixelweise innerhalb des Shaders dekodiert, wodurch die VRAM-Einsparung maximiert wird, während gleichzeitig konstante Inferenzkosten anfallen.

Jede Bereitstellungsstrategie erfordert eine sorgfältige Auswahl durch die Entwickler auf der Grundlage ihrer spezifischen Anforderungen und der verwendeten zugrunde liegenden Engine.

Eine Präsentationsfolie mit dem Titel „Schätzungen der Inferenzzeit auf der integrierten Grafik des Pantherlake B390“ enthält ein Balkendiagramm mit der Angabe „Durchschnittliche Nanosekunden pro Pixel (niedriger ist besser)“, wobei der LinAlg-Algorithmus eine Beschleunigung von etwa dem 3, 4-Fachen pro Pixel gegenüber FMA erreicht.

Intels Benchmarks mit einem Panther Lake Laptop, der die integrierte B390-Grafik unter voller 1080p-Compute-Shader-Auslastung nutzte, ergaben folgende Ergebnisse:

FMA-Pfad: 0, 661 Nanosekunden pro Pixel
XMX-Pfad für lineare Algebra: 0, 194 Nanosekunden pro Pixel

Dies belegt eine deutliche 3, 4-fache Beschleunigung dank hardwarebeschleunigter Matrixberechnungen. Die positiven Leistungskennzahlen integrierter Systeme deuten darauf hin, dass die pixelgenaue Abtastzeitmessung praktikabler sein könnte als bisher angenommen. Bei dedizierten GPUs sind sogar noch geringere Leistungseinbußen zu erwarten. Intel plant, noch in diesem Jahr eine Alpha-Version des Texture Set Neural Compression SDK zu veröffentlichen, gefolgt von Betatests und der offiziellen Freigabe. Die genauen Zeitpläne stehen jedoch noch nicht fest.

Quellen & Bilder