NVIDIA hat eine revolutionäre Verbesserung seines ReSTIR-Algorithmus vorgestellt, die die Path-Tracing-Leistung um das 2- bis 3-fache steigert und damit den Weg für die Zukunft der Spielegrafik ebnet.
Raytracing: Ein Trendsetter für Path-Tracing-Fortschritte von NVIDIA
Path Tracing wird von PC-Spielen zunehmend eingesetzt, um die für Next-Gen-Spiele typische, unvergleichliche Grafikqualität zu erreichen. NVIDIA, ein führender Anbieter von Grafiktechnologie, treibt die Einführung von Path Tracing auf dem PC voran.Ähnlich wie beim Raytracing in seinen Anfängen benötigt Path Tracing jedoch aktuell noch leistungsstarke Hardware. Selbst die leistungsstarke RTX 5090 hat beispielsweise Schwierigkeiten, spielbare Frameraten zu erzielen und erreicht in vielen Titeln nur 30–40 FPS. Dabei ist sie stark auf DLSS-Upscaling und Frame-Generierung angewiesen.
Raytracing begann seine Entwicklung auf dem PC und ist auf moderner Hardware zunehmend effizienter geworden. Auch Konsolen haben Raytracing effektiv integriert, allerdings hauptsächlich mit Qualitätseinstellungen, die in den meisten Fällen noch keine 60 FPS erreichen.

In einer bahnbrechenden Forschungsarbeit mit dem Titel „ReSTIR PT Enhanced: Algorithmische Fortschritte für schnelleres und robusteres ReSTIR Path Tracing“ beschreibt NVIDIA eine Reihe von ReSTIR-Algorithmen zur Steigerung der Path-Tracing-Leistung. Diese Innovationen ermöglichen eine bemerkenswerte 2- bis 3-fache Geschwindigkeitssteigerung bei gleichzeitiger Minimierung der visuellen Inkonsistenzen, die bei aktuellen Path-Tracing- und Raytracing-Ausgaben häufig auftreten.

Die verbesserten Path-Tracing-Algorithmen von NVIDIA nähern sich dem von dem Unternehmen als „produktionsreif“ bezeichneten Zustand und halbieren die Kosten für die räumliche Wiederverwendung. Diese Fortschritte verbessern zudem die Gesamtleistung und -qualität durch Methoden, die direkte und globale Beleuchtung integrieren und gleichzeitig Farbrauschen und Disokklusionsrauschen effektiv reduzieren. Zu den Verbesserungen des Algorithmus gehören:
- Eine Reduzierung der Kosten für die Verschiebungsplanung, die mit der räumlichen Wiederverwendung durch gezielte Nachbarwahl verbunden ist.
- Dynamische Schwellenwerte für die Strahlausbreitung, die sich an unterschiedliche Szenen und Materialien anpassen.
- Minimierung von Korrelationsartefakten durch Verwendung von Stichproben-Duplikationskarten.
- Zusätzliche Optimierungen, die die Stabilität und Leistung durch Reduzierung von Farb- und Verdeckungsrauschen verbessern.

Tabelle 1 zeigt die Leistung unserer Verfahren. Jede Zeile stellt eine neue Funktion/Optimierung gegenüber dem öffentlich zugänglichen Quellcode von Lin et al.[2022] dar. Zunächst messen wir die Beschleunigung durch unsere Kostenreduktionsverfahren, die in den vier getesteten Szenen eine durchschnittliche Beschleunigung um den Faktor 2, 74 erzielen. Diese Szenen wurden so ausgewählt, dass sie ein breites Spektrum an Geometrie- und Materialkomplexität abdecken. Die Ergebnisse für die einzelnen Szenen sind im Anhang zu finden.
Um die Auswirkungen unserer GPU-Optimierungen auf niedriger Ebene genauer zu untersuchen, haben wir Opera House mithilfe von NSight Graphics profiliert. Die Profilerdaten zeigen, dass die Optimierungen in Abschnitt 6.2.1–6.2.3 die Thread-Divergenz verringern und die GPU-Berechnungseffizienz verbessern. Im Einzelnen:
- Die SM-Kettfadenbelegung steigt von 22, 4 % auf 31, 1 %.
- Die Anzahl der aktiven Fäden pro Kette steigt von 15, 3 auf 19, 9.
- Die Warp-Latenz sinkt von 347k auf 241k Zyklen.
All dies geschieht, ohne das Verhalten des Samplers zu ändern. Die Anwendung von Russisch Roulette (Abschnitt 6.2.4) verbessert diese Metriken weiter zu:
- 34, 9 % Auslastung
- 20, 6 aktive Fäden pro Kette
- 82.000 Zyklen Latenz
Da jeder ReSTIR-Durchlauf zwei Speichersätze zur Unterstützung der zeitlichen Wiederverwendung benötigt, reduziert diese Änderung den Speicherplatzbedarf pro Pixel von 2 × (88 + 16) Byte in der Basisimplementierung (die 16-Byte-Speicher für ReSTIR DI verwendet) auf 2 × 64 Byte. Bei einer Renderauflösung von 1920×1080 Pixeln sinkt der Speicherverbrauch dadurch von 431 MB auf 265 MB.
Vergleich der GPU-Optimierungsergebnisse mit Lin et al.[2022]
Technisches Praktikum SM-Warp-Auslastung (%) Aktive Fäden pro Warp Warp-Latenz (Zyklen) Beschleunigung vs. Basislinie Anmerkungen Ausgangswert (Lin et al.[2022]) 22.4 15.3 347.000 1, 0× Öffentliche Quellcode-Basislinie GPU-Optimierungen auf niedriger Ebene (Abschnitte 6.2.1–6.2.3) 31.1 19.9 241k 2, 74× (Durchschnittswert aus 4 Szenen) Reduzierte Gewindedivergenz, verbesserte Effizienz + Russisches Roulette (Abschnitt 6.2.4) 34, 9 20.6 82k — Weitere Effizienzsteigerungen + Neue Schwellenwerte (Abschnitte 4, 5, 6) — — — — Szenenunabhängige Wiederverbindungskriterien verbessern die Qualität der Verschiebungszuordnung. Alle Verbesserungen (Dekorrelation, Rauschunterdrückung) — — — 2, 30× Verursacht 19 % mehr Kosten als die schnellste Version, ist aber immer noch schneller als
Die Fortschritte von NVIDIA versprechen einen bedeutenden Sprung bei den Path-Tracing-Fähigkeiten, insbesondere seit der Veröffentlichung der GPU-Serien RTX 40 und RTX 50. NVIDIA plant, zukünftig Neural-Rendering-Techniken und KI-Algorithmen zu integrieren, um die Leistung seiner Gaming-Hardware weiter zu optimieren und die visuellen Fähigkeiten der nächsten Generation deutlich zu verbessern.
Schreibe einen Kommentar