インテルがテクスチャセットニューラル圧縮SDKを発表:テクスチャサイズを最大18分の1に縮小

インテルがテクスチャセットニューラル圧縮SDKを発表:テクスチャサイズを最大18分の1に縮小

GDC 2026において、インテルのグラフィックスエンジニアであるマリッサ・デュボワ氏が登壇しNVIDIAのNTCに類似したインテルの革新的なニューラルテクスチャ圧縮技術を発表しました。このプレゼンテーションは、GDC 2025で披露されたインテルの以前の研究開発プロトタイプからの大きな進歩を示しており、この技術が完全に製品化されたスタンドアロンのソフトウェア開発キット(SDK)へと進化したことを明らかにしました。

テクスチャセットニューラル圧縮(TSNC)と呼ばれるこの手法は、ゲームで使用されるテクスチャを保存するための高度なアプローチです。従来のGPUブロック圧縮技術(BC1からBC7までのフォーマット)は、通常、固定アルゴリズムを適用します。これらの手法は高速で広く採用されていますが、圧縮の可能性を十分に活かしきれていないことがよくあります。これに対し、TSNCは機械学習の力を活用し、確率的勾配降下法を用いる小型ニューラルネットワークを使用して、特定のテクスチャセットを効率的にエンコードおよびデコードします。この画期的な技術は、コンパクトな潜在空間表現に集約され、実行時にコンパクトな多層パーセプトロンによって再構築され、拡散、法線、粗さ、金属、アンビエントオクルージョン、発光属性などの元のテクスチャデータを取得できるようになります。

この画像は「ニューラル圧縮入門」と題された図で、入力データを「エンコーダー」を通して「潜在空間値」に圧縮し、「デコーダー」で解凍して「出力データ」を生成するプロセスを詳細に示しており、エンコーダーおよびデコーダーネットワークのモデル重みの発見に関する情報も含まれています。

TSNCの重要な点は、特定のマテリアルのすべてのPBRマップを含むテクスチャセットには、チャネル間で重複するデータが含まれていることが多いという点を理解することです。TSNCは、標準的なブロック圧縮では実現できない方法で、この冗長性を巧みに活用します。

「特徴ピラミッド比較」と題された比較表には、Intelのロゴが入ったカボチャのモデルについて、さまざまなテクスチャマップと潜在空間のバリエーションが表示されます。

特徴ピラミッドの2つの階層

TSNCの圧縮方式の中核を成すのは、複数の解像度構成で変化する4つのBC1エンコードされた潜在空間テクスチャからなる特徴ピラミッドです。インテルは、品質と圧縮効率のトレードオフが異なる2つの異なるバリアントを導入しています。

  • バリアントAは、フル解像度の潜在画像2枚と、半分の解像度の潜在画像2枚で構成されています。4K入力をターゲットとするテクスチャの場合、これは4K画像2枚と2K画像2枚に相当し、結果として9倍の圧縮率を実現し、ファイルサイズを256MBから約26.8MBに削減します。NVIDIAのFLIP解析ツールを使用して評価した知覚品質の低下は約5%で、ノーマルマップへの影響はごくわずかです。
  • バリアントBはより積極的なアプローチを採用し、潜在画像を初期解像度の半分、4分の1、8分の1に縮小することで、17倍以上の圧縮率を実現しています。ただし、このバリアントでは画質が著しく劣化し、BC1アーティファクトがノーマルマップやアンビエントオクルージョン/ラフネスチャンネルで目立つようになります。FLIPで評価された知覚誤差は6~7%で、Intelは「視聴者が気づくには十分」と認めています。したがって、バリアントBは、ディテールの保持がそれほど重要ではない遠景や二次的な素材に最適です。
「TSNCバリアントA圧縮率」と題されたグラフは、1k、2k、4kの解像度において、TSNCがBCx(4.79~4.80倍)と比較して、より高い圧縮率(9.53~9.59倍)を達成していることを示しています。
「圧縮率」と題されたスライドでは、さまざまな圧縮形式を比較し、TSNCがBCxの4.79倍から4.80倍に対し、17.85倍から18.05倍という高い圧縮率を達成していることを示しており、そのデータはグラフで示されています。

PyTorchをベースにした研究プロトタイプとして登場して以来、IntelはSlangコンピュートシェーダーを使用してTSNCコンプレッサーを完全に再開発しました。この新しいアーキテクチャにより、開発者はUnreal Engine、カスタムエンジン、CPUベースの解凍など、さまざまなプラットフォームで同じ解凍コードを利用できるようになります。

GPUに関しては、IntelはMicrosoftのDirectX 12 Cooperative Vectors APIをサポートし、AシリーズおよびBシリーズGPUに統合されたXMXマトリックスコアを活用して、ハードウェアアクセラレーションによる行列推論を実現しました。XMXをサポートしていないシステムの場合、このフレームワークはIntelおよび非Intelアーキテクチャの両方に対応する標準的なFMA(積和演算)手法にフォールバックします。

デュボワ氏はプレゼンテーションの中で、TSNCテクノロジーの導入戦略として、メモリ使用量とディスク容量効率のバランスが異なる4つの戦略を概説した。

  • インストール時— 圧縮ファイルはインストールの一環としてローカルに配信され、解凍されます。これにより、非圧縮のテクスチャはユーザーのストレージに保持され、配布時の帯域幅の節約が最適化されます。
  • ロード時― テクスチャはディスク上に圧縮された状態で保存され、ゲームのロード中にVRAMに解凍されます。この方法により、インストールサイズとロード中のVRAM使用量の両方を最小限に抑えることができます。
  • ストリーム時— テクスチャストリーミングと連携して、テクスチャは必要に応じて解凍され、ストレージとメモリ効率のバランスが取れる一方で、ランタイム推論の負荷が若干増加します。
  • サンプリング時— テクスチャはVRAMに永続的に圧縮された状態で保持され、シェーダー内でピクセル単位でデコードされるため、一定の推論コストが発生しながらもVRAMの節約が最大化されます。

それぞれの導入戦略は、開発者がそれぞれの具体的な要件と使用する基盤となるエンジンに基づいて慎重に選択する必要がある。

「Pantherlake B390内蔵グラフィックスにおける推論時間の推定」と題されたプレゼンテーションスライドには、「ピクセルあたりの平均ナノ秒(数値が低いほど良い)」を示す棒グラフが掲載されており、LinAlgアルゴリズムはFMAと比較してピクセルあたり約3.4倍の高速化を実現しています。

IntelがPanther Lake搭載ノートPC(B390統合グラフィックス使用)で実施した、1080p解像度でのコンピュートシェーダー処理負荷時のベンチマーク結果は以下のとおりです。

  • FMAパス:ピクセルあたり0.661ナノ秒
  • XMX線形代数パス:ピクセルあたり0.194ナノ秒

これは、ハードウェアアクセラレーションによる行列演算によって、 3.4倍もの大幅な高速化が実現したことを示しています。統合システムで観測された良好なパフォーマンス指標は、ピクセルごとのサンプル時間での展開が、これまで予想されていたよりも実現可能であることを示唆しています。ディスクリートGPUでは、さらに低いオーバーヘッドが期待できます。Intelは、今年後半にTexture Set Neural Compression SDKのアルファ版をリリースし、その後ベータテストと一般公開を行う予定ですが、具体的なスケジュールはまだ確定していません。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です