인텔, 텍스처 세트 신경망 압축 SDK 출시: 최대 18배 더 작은 텍스처 구현 가능

GDC 2026에서 인텔 의 그래픽 엔지니어인 마리사 듀보이스는 무대 에 올라 엔비디아의 NTC 와 유사한 인텔의 혁신적인 신경 텍스처 압축 방식을 공개했습니다.이 발표는 GDC 2025에서 선보였던 인텔의 초기 연구 개발 프로토타입에서 상당한 진전을 보여주며, 해당 기술이 이제 완전한 제품화된 독립형 소프트웨어 개발 키트(SDK)로 발전했음을 보여주었습니다.

TSNC(Texture Set Neural Compression) 라고 불리는 이 기술은 게임에 사용되는 텍스처를 저장하는 데 있어 진보된 접근 방식을 제시합니다. BC1부터 BC7까지의 기존 GPU 블록 압축 기술은 일반적으로 고정된 알고리즘을 적용합니다.이러한 방식은 빠르고 보편적으로 사용되지만, 상당한 압축 잠재력을 놓치는 경우가 많습니다.이와 대조적으로 TSNC는 머신 러닝의 힘을 활용하여 확률적 경사 하강법을 사용하는 소형 신경망을 통해 특정 텍스처 세트를 효율적으로 인코딩 및 디코딩합니다.이러한 혁신은 압축된 잠재 공간 표현 으로 이어지며, 이를 소형 다층 퍼셉트론이 런타임에 재구성하여 확산, 법선, 거칠기, 금속성, 주변 폐색 및 발광 속성을 포함한 원본 텍스처 데이터를 복원할 수 있게 합니다.

이 이미지는 '신경망 압축 101'이라는 제목의 다이어그램으로, 입력 데이터를 '인코더'를 통해 '잠재 공간 값'으로 압축하고 '디코더'를 통해 압축을 해제하여 '출력 데이터'를 생성하는 과정을 자세히 설명하며, 인코더 및 디코더 네트워크의 모델 가중치를 찾는 방법에 대한 정보도 포함하고 있습니다.

TSNC의 핵심은 특정 재질에 대한 모든 PBR 맵을 포함하는 텍스처 세트가 채널 간에 중복되는 데이터를 종종 포함한다는 점을 이해하는 것입니다. TSNC는 표준 블록 압축 방식으로는 달성할 수 없는 방식으로 이러한 중복성을 영리하게 활용합니다.

'기능 피라미드 비교'라는 제목의 비교 차트는 인텔 로고가 있는 호박 모델에 대한 다양한 텍스처 맵과 잠재 공간 변형을 보여줍니다.

기능 피라미드의 두 단계

TSNC의 압축 방식 핵심은 여러 해상도 구성에 따라 달라지는 4개의 BC1 인코딩 잠재 공간 텍스처로 구성된 특징 피라미드 입니다.인텔은 품질과 압축 효율성 사이에서 각각 다른 절충점을 제공하는 두 가지 변형을 도입했습니다.

A 변형은 고해상도 잠재 이미지 2개와 절반 해상도 잠재 이미지 2개를 포함합니다.4K 입력을 대상으로 하는 텍스처의 경우, 이는 4K 잠재 이미지 2개와 2K 잠재 이미지 2개로 이어져 9배의 놀라운 압축률을 달성하며, 파일 크기를 256MB에서 약 26.8MB로 줄입니다. NVIDIA의 FLIP 분석 도구를 사용하여 평가한 시각적 품질 손실은 약 5% 수준이며, 노멀 맵에 미치는 영향은 미미합니다.
변형 B는 더욱 적극적인 접근 방식을 채택하여 잠재 이미지를 초기 해상도의 절반, 4분의 1, 8분의 1로 줄여 17배 이상의 압축률을 달성합니다.그러나 이 변형은 화질 저하가 두드러지게 나타나는데, 노멀 맵과 앰비언트 오클루전/러프니스 채널에서 BC1 아티팩트가 발생합니다. FLIP으로 평가한 지각 오차는 6~7% 사이이며, 인텔은 이 정도면 “시청자가 알아차릴 수 있을 정도”라고 인정합니다.따라서 변형 B는 디테일 보존이 덜 중요한 원거리 또는 보조 자료에 사용하는 것이 가장 좋습니다.

'TSNC 변형 A 압축률'이라는 제목의 차트는 TSNC가 1k, 2k, 4k 해상도에서 BCx(4.79~4.80배)에 비해 더 높은 압축률(9.53~9.59배)을 달성함을 보여줍니다.

'압축률'이라는 제목의 슬라이드는 다양한 압축 형식을 비교하여 TSNC가 BCx의 4.79배~4.80배에 비해 17.85배~18.05배의 더 높은 압축률을 달성함을 차트로 보여줍니다.

인텔은 PyTorch 기반 연구 프로토타입으로 처음 선보인 이후, Slang 컴퓨트 셰이더를 사용하여 TSNC 압축기를 완전히 재개발했습니다.이 새로운 아키텍처를 통해 개발자는 언리얼 엔진, 사용자 정의 엔진, CPU 기반 압축 해제 등 다양한 플랫폼에서 동일한 압축 해제 코드를 활용할 수 있습니다.

GPU 측면에서 인텔은 이제 마이크로소프트의 DirectX 12 Cooperative Vectors API를 지원하며, A 시리즈 및 B 시리즈 GPU에 통합된 XMX 행렬 코어를 활용하여 하드웨어 가속 행렬 추론을 가능하게 합니다. XMX를 지원하지 않는 시스템의 경우, 이 프레임워크는 인텔 및 비인텔 아키텍처 모두와 호환되는 표준 FMA(융합 곱셈 및 덧셈) 기법을 사용합니다.

듀보이스는 발표에서 TSNC 기술을 위한 네 가지 배포 전략을 설명했는데, 각 전략은 메모리 활용도와 디스크 공간 효율성 사이에서 서로 다른 균형을 제공합니다.

설치 시 — 압축 파일은 설치 과정의 일부로 로컬에서 전달 및 압축 해제되어, 배포 중 최적의 대역폭 절약을 위해 압축되지 않은 텍스처가 사용자 저장소에 유지됩니다.
로딩 시 – 텍스처는 디스크에 압축된 상태로 저장되며, 게임 로딩 단계에서 VRAM으로 압축이 해제됩니다.이 방식은 설치 크기와 로딩 과정 중 VRAM 사용량을 최소화합니다.
스트리밍 시점 — 텍스처 스트리밍과 함께 텍스처는 필요에 따라 압축 해제되어 스토리지 및 메모리 효율성 간의 균형을 유지하는 동시에 런타임 추론 부하를 약간 증가시킵니다.
샘플링 시점에 텍스처는 VRAM에 영구적으로 압축된 상태로 저장되며, 셰이더 내에서 픽셀 단위로 디코딩되어 일정한 추론 비용을 유지하면서 VRAM 사용량을 최대한 절약합니다.

각 배포 전략은 개발자가 특정 요구 사항과 사용되는 기본 엔진을 기반으로 신중하게 선택해야 합니다.

'Pantherlake B390 내장 그래픽에서의 추론 시간 추정'이라는 제목의 프레젠테이션 슬라이드에는 '픽셀당 평균 나노초(값이 낮을수록 좋음)'를 나타내는 막대 그래프가 있으며, LinAlg 알고리즘은 FMA에 비해 픽셀당 약 3.4배의 속도 향상을 달성했습니다.

인텔이 팬서 레이크 노트북(B390 통합 그래픽 사용) 에서 1080p 해상도의 컴퓨트 셰이더 워크로드를 실행하며 진행한 벤치마크 결과는 다음과 같습니다.

FMA 경로: 픽셀당 0.661나노초
XMX 선형 대수 경로: 픽셀당 0.194나노초

이는 하드웨어 가속 행렬 연산 덕분에 3.4배의 상당한 속도 향상을 보여줍니다.통합 시스템에서 관찰된 우수한 성능 지표는 픽셀 단위 샘플링 시간 구현이 예상보다 더 실현 가능할 수 있음을 시사합니다.외장 GPU의 경우, 오버헤드는 더욱 낮아질 것으로 예상됩니다.인텔은 올해 말 텍스처 세트 신경 압축 SDK 의 알파 버전을 출시하고, 이어서 베타 테스트 및 정식 출시를 진행할 예정이지만, 정확한 일정은 아직 확정되지 않았습니다.

출처 및 이미지

인텔, 텍스처 세트 신경망 압축 SDK 출시: 최대 18배 더 작은 텍스처 구현 가능

기능 피라미드의 두 단계

마이크로소프트, 윈도우 인사이더 프로그램 개편: 새로운 채널, 기능 플래그, 인플레이스 업그레이드 도입

애플, 아이폰 폴드 디스플레이 재고 20% 증량…부진한 폴더블 스마트폰 판매 활성화 기대