NVIDIA steigert die Path-Tracing-Leistung um das Dreifache mit fortschrittlichen ReSTIR-Algorithmen für Spiele der nächsten Generation

NVIDIA hat eine revolutionäre Verbesserung seines ReSTIR-Algorithmus vorgestellt, die die Path-Tracing-Leistung um das 2- bis 3-fache steigert und damit den Weg für die Zukunft der Spielegrafik ebnet.

Raytracing: Ein Trendsetter für Path-Tracing-Fortschritte von NVIDIA

Path Tracing wird von PC-Spielen zunehmend eingesetzt, um die für Next-Gen-Spiele typische, unvergleichliche Grafikqualität zu erreichen. NVIDIA, ein führender Anbieter von Grafiktechnologie, treibt die Einführung von Path Tracing auf dem PC voran.Ähnlich wie beim Raytracing in seinen Anfängen benötigt Path Tracing jedoch aktuell noch leistungsstarke Hardware. Selbst die leistungsstarke RTX 5090 hat beispielsweise Schwierigkeiten, spielbare Frameraten zu erzielen und erreicht in vielen Titeln nur 30–40 FPS. Dabei ist sie stark auf DLSS-Upscaling und Frame-Generierung angewiesen.

Raytracing begann seine Entwicklung auf dem PC und ist auf moderner Hardware zunehmend effizienter geworden. Auch Konsolen haben Raytracing effektiv integriert, allerdings hauptsächlich mit Qualitätseinstellungen, die in den meisten Fällen noch keine 60 FPS erreichen.

Ein Vergleichsbild zeigt links „Original ReSTIR PT (37, 1 ms) FLIP: 0, 321“ und rechts „ReSTIR PT Enhanced (12, 6 ms) FLIP: 0, 263“, wobei Unterschiede in der Renderzeit und der visuellen Rauschunterdrückung hervorgehoben werden. — Bildquelle: NVIDIA

In einer bahnbrechenden Forschungsarbeit mit dem Titel „ReSTIR PT Enhanced: Algorithmische Fortschritte für schnelleres und robusteres ReSTIR Path Tracing“ beschreibt NVIDIA eine Reihe von ReSTIR-Algorithmen zur Steigerung der Path-Tracing-Leistung. Diese Innovationen ermöglichen eine bemerkenswerte 2- bis 3-fache Geschwindigkeitssteigerung bei gleichzeitiger Minimierung der visuellen Inkonsistenzen, die bei aktuellen Path-Tracing- und Raytracing-Ausgaben häufig auftreten.

Eine Collage vergleicht „Original ReSTIR PT“ mit „ReSTIR PT Enhanced“ in drei Szenen: „Watercolor“, „Zero Day“ und „Crown“.Dabei werden die Unterschiede in den Renderzeiten und FLIP-Werten hervorgehoben, wobei die verbesserte Version schnellere Zeiten und eine höhere Bildqualität aufweist. — Bildquelle: NVIDIA

Die verbesserten Path-Tracing-Algorithmen von NVIDIA nähern sich dem von dem Unternehmen als „produktionsreif“ bezeichneten Zustand und halbieren die Kosten für die räumliche Wiederverwendung. Diese Fortschritte verbessern zudem die Gesamtleistung und -qualität durch Methoden, die direkte und globale Beleuchtung integrieren und gleichzeitig Farbrauschen und Disokklusionsrauschen effektiv reduzieren. Zu den Verbesserungen des Algorithmus gehören:

Eine Reduzierung der Kosten für die Verschiebungsplanung, die mit der räumlichen Wiederverwendung durch gezielte Nachbarwahl verbunden ist.
Dynamische Schwellenwerte für die Strahlausbreitung, die sich an unterschiedliche Szenen und Materialien anpassen.
Minimierung von Korrelationsartefakten durch Verwendung von Stichproben-Duplikationskarten.
Zusätzliche Optimierungen, die die Stabilität und Leistung durch Reduzierung von Farb- und Verdeckungsrauschen verbessern.

Eine Tabelle mit dem Titel „Frame- und Passkosten (in Millisekunden), gemittelt über vier Szenen“ zeigt, dass die Methode „+Unify DI & GI (Abschnitt 6.1)“ die niedrigsten Gesamtframekosten von 13, 04 Millisekunden erzielt. — Bildquelle: NVIDIA

Tabelle 1 zeigt die Leistung unserer Verfahren. Jede Zeile stellt eine neue Funktion/Optimierung gegenüber dem öffentlich zugänglichen Quellcode von Lin et al.[2022] dar. Zunächst messen wir die Beschleunigung durch unsere Kostenreduktionsverfahren, die in den vier getesteten Szenen eine durchschnittliche Beschleunigung um den Faktor 2, 74 erzielen. Diese Szenen wurden so ausgewählt, dass sie ein breites Spektrum an Geometrie- und Materialkomplexität abdecken. Die Ergebnisse für die einzelnen Szenen sind im Anhang zu finden.

Um die Auswirkungen unserer GPU-Optimierungen auf niedriger Ebene genauer zu untersuchen, haben wir Opera House mithilfe von NSight Graphics profiliert. Die Profilerdaten zeigen, dass die Optimierungen in Abschnitt 6.2.1–6.2.3 die Thread-Divergenz verringern und die GPU-Berechnungseffizienz verbessern. Im Einzelnen:

Die SM-Kettfadenbelegung steigt von 22, 4 % auf 31, 1 %.

Die Anzahl der aktiven Fäden pro Kette steigt von 15, 3 auf 19, 9.

Die Warp-Latenz sinkt von 347k auf 241k Zyklen.

All dies geschieht, ohne das Verhalten des Samplers zu ändern. Die Anwendung von Russisch Roulette (Abschnitt 6.2.4) verbessert diese Metriken weiter zu:

34, 9 % Auslastung

20, 6 aktive Fäden pro Kette

82.000 Zyklen Latenz

Da jeder ReSTIR-Durchlauf zwei Speichersätze zur Unterstützung der zeitlichen Wiederverwendung benötigt, reduziert diese Änderung den Speicherplatzbedarf pro Pixel von 2 × (88 + 16) Byte in der Basisimplementierung (die 16-Byte-Speicher für ReSTIR DI verwendet) auf 2 × 64 Byte. Bei einer Renderauflösung von 1920×1080 Pixeln sinkt der Speicherverbrauch dadurch von 431 MB auf 265 MB.

Vergleich der GPU-Optimierungsergebnisse mit Lin et al.[2022]

Technisches Praktikum SM-Warp-Auslastung (%) Aktive Fäden pro Warp Warp-Latenz (Zyklen) Beschleunigung vs. Basislinie Anmerkungen

Ausgangswert (Lin et al.[2022]) 22.4 15.3 347.000 1, 0× Öffentliche Quellcode-Basislinie

GPU-Optimierungen auf niedriger Ebene (Abschnitte 6.2.1–6.2.3) 31.1 19.9 241k 2, 74× (Durchschnittswert aus 4 Szenen) Reduzierte Gewindedivergenz, verbesserte Effizienz

+ Russisches Roulette (Abschnitt 6.2.4) 34, 9 20.6 82k — Weitere Effizienzsteigerungen

+ Neue Schwellenwerte (Abschnitte 4, 5, 6) — — — — Szenenunabhängige Wiederverbindungskriterien verbessern die Qualität der Verschiebungszuordnung.

Alle Verbesserungen (Dekorrelation, Rauschunterdrückung) — — — 2, 30× Verursacht 19 % mehr Kosten als die schnellste Version, ist aber immer noch schneller als

Technisches Praktikum	SM-Warp-Auslastung (%)	Aktive Fäden pro Warp	Warp-Latenz (Zyklen)	Beschleunigung vs. Basislinie	Anmerkungen
Ausgangswert (Lin et al.[2022])	22.4	15.3	347.000	1, 0×	Öffentliche Quellcode-Basislinie
GPU-Optimierungen auf niedriger Ebene (Abschnitte 6.2.1–6.2.3)	31.1	19.9	241k	2, 74× (Durchschnittswert aus 4 Szenen)	Reduzierte Gewindedivergenz, verbesserte Effizienz
+ Russisches Roulette (Abschnitt 6.2.4)	34, 9	20.6	82k	—	Weitere Effizienzsteigerungen
+ Neue Schwellenwerte (Abschnitte 4, 5, 6)	—	—	—	—	Szenenunabhängige Wiederverbindungskriterien verbessern die Qualität der Verschiebungszuordnung.
Alle Verbesserungen (Dekorrelation, Rauschunterdrückung)	—	—	—	2, 30×	Verursacht 19 % mehr Kosten als die schnellste Version, ist aber immer noch schneller als

Die Fortschritte von NVIDIA versprechen einen bedeutenden Sprung bei den Path-Tracing-Fähigkeiten, insbesondere seit der Veröffentlichung der GPU-Serien RTX 40 und RTX 50. NVIDIA plant, zukünftig Neural-Rendering-Techniken und KI-Algorithmen zu integrieren, um die Leistung seiner Gaming-Hardware weiter zu optimieren und die visuellen Fähigkeiten der nächsten Generation deutlich zu verbessern.

Quellen & Bilder