NVIDIA는 자사의 ReSTIR 알고리즘을 획기적으로 개선하여 패스 트레이싱 성능을 2~3배 향상시켰으며, 이는 미래 게임 그래픽의 새로운 지평을 열었습니다.
NVIDIA의 레이 트레이싱: 패스 트레이싱 기술 발전의 선두 주자
패스 트레이싱은 차세대 게임 경험에 걸맞은 탁월한 시각적 완성도를 구현하기 위해 PC 게임에서 점점 더 많이 사용되고 있습니다.그래픽 기술 분야의 선두주자인 NVIDIA는 PC 플랫폼에 패스 트레이싱을 도입하는 데 앞장서고 있습니다.하지만 레이 트레이싱 초기와 마찬가지로, 현재 패스 트레이싱은 고성능 하드웨어를 요구합니다.예를 들어, 강력한 RTX 5090조차도 많은 게임에서 30~40 FPS 정도의 프레임률을 유지하는 데 어려움을 겪으며, DLSS 업스케일링 및 프레임 생성에 크게 의존하고 있습니다.
레이 트레이싱은 PC에서 처음 도입되어 최신 하드웨어에서 점차 효율성이 향상되었습니다.콘솔에서도 레이 트레이싱이 효과적으로 구현되었지만, 대부분의 경우 60 FPS를 달성하기 어려운 화질 설정에서 주로 사용됩니다.

NVIDIA는 “ReSTIR PT Enhanced: 더 빠르고 견고한 ReSTIR 경로 추적을 위한 알고리즘 발전” 이라는 획기적인 연구 논문에서 경로 추적 성능을 향상시키도록 설계된 ReSTIR 알고리즘 제품군을 소개합니다.이러한 혁신은 현재 경로 추적 및 레이 추적 출력에서 흔히 나타나는 시각적 불일치를 최소화하면서 속도를 2~3배 향상시키는 놀라운 결과를 제공할 수 있습니다.

NVIDIA의 향상된 패스 트레이싱 알고리즘은 회사가 “생산 준비 완료”라고 부르는 수준에 근접하고 있으며, 공간 재사용 관련 비용을 절반으로 줄였습니다.이러한 발전은 직접 조명과 전역 조명을 통합하는 방법론을 통해 전반적인 성능과 품질을 향상시키고, 색상 노이즈 및 가림 노이즈 감소를 효과적으로 처리합니다.알고리즘에 포함된 주요 개선 사항은 다음과 같습니다.
- 선택적 이웃 선택을 통해 공간 재사용과 관련된 교대 근무 매핑 비용을 절감할 수 있습니다.
- 장면과 재질에 따라 조정되는 동적 광선 범위 임계값.
- 샘플 중복 맵을 활용하여 상관 관계 오류를 최소화했습니다.
- 색상 및 가림 현상 노이즈를 줄여 안정성과 성능을 향상시키는 추가 최적화가 이루어졌습니다.

표 1은 Lin et al.[2022]의 공개 소스 코드 기준선에 각 행마다 새로운 기능/최적화를 하나씩 추가한 본 논문에서 제안하는 기법들의 성능을 보여줍니다.먼저 비용 절감 기법을 통해 얻은 속도 향상을 측정했는데, 테스트한 네 가지 장면에서 평균 2.74배의 속도 향상을 보였습니다.이 장면들은 다양한 기하학적 형태와 재질 복잡성을 반영하도록 선정되었습니다.개별 장면에 대한 결과는 부록에 제공됩니다.
저수준 GPU 최적화의 효과를 더 자세히 알아보기 위해 NSight Graphics를 사용하여 Opera House의 프로파일링을 수행했습니다.프로파일러 데이터는 6.2.1~6.2.3절의 최적화가 스레드 발산을 줄이고 GPU 연산 효율성을 향상시킨다는 것을 보여줍니다.구체적으로 다음과 같습니다.
- SM 워프 점유율이 22.4%에서 31.1%로 증가했습니다.
- 워프당 활성 스레드 수가 15.3에서 19.9로 증가합니다.
- 워프 지연 시간이 347k 사이클에서 241k 사이클로 감소했습니다.
이 모든 과정은 샘플러 동작을 변경하지 않고 진행됩니다.러시안 룰렛(섹션 6.2.4)을 적용하면 이러한 지표가 더욱 향상됩니다.
- 객실 점유율 34.9%
- 날실당 활성 가닥 수 20.6개
- 82k 사이클 지연 시간
각 ReSTIR 패스는 시간적 재사용을 지원하기 위해 두 세트의 리저버를 필요로 하므로, 이러한 변경 사항은 기준 구현(ReSTIR DI에 16바이트 리저버 사용)의 픽셀당 저장 용량을 2 × (88 + 16)바이트에서 2 × 64바이트로 줄입니다.1920×1080 렌더링 해상도에서 메모리 사용량은 431MB에서 265MB로 감소합니다.
GPU 최적화 결과를 Lin et al.[2022]과 비교함
기술/인턴십 SM 워프 점유율(%) 날실당 활성 스레드 수 워프 지연 시간(사이클) 속도 향상 vs.기준치 메모 기준선(Lin et al.[2022]) 22.4 15.3 347k 1.0× 공개 소스 코드 기준선 저수준 GPU 최적화(섹션 6.2.1~6.2.3) 31.1 19.9 24만 1천 2.74배 (4개 장면 평균) 실 꼬임 감소, 효율성 향상 + 러시안 룰렛 (섹션 6.2.4) 34.9 20.6 82k — 추가적인 효율성 향상 + 새로운 기준점 (섹션 4, 5, 6) — — — — 장면 독립적인 재연결 기준은 교대 근무 매핑 품질을 향상시킵니다. 모든 개선 사항(상관 제거, 노이즈 감소) — — — 2.30배 가장 빠른 버전 대비 19% 비용이 추가되지만 여전히 더 빠릅니다.
NVIDIA의 기술 발전은 특히 RTX 40 및 RTX 50 GPU 시리즈 출시 이후 패스 트레이싱 기능의 상당한 도약을 약속합니다. NVIDIA는 앞으로 신경 렌더링 기술과 AI 알고리즘을 자사 게임 하드웨어에 통합하여 성능을 더욱 향상시키고 차세대 비주얼 기능을 획기적으로 개선하는 데 큰 기대를 걸고 있습니다.
답글 남기기