AMD RDNA 4 アーキテクチャの詳細: 新しいコンピューティングユニット、強化されたレイトレーシングコア、AI 機能、パストレーシング機能

AMD は、Radeon RX 9000 シリーズ向けに細心の注意を払って開発された、近日発売予定の RDNA 4 GPU アーキテクチャに関する包括的なアーキテクチャ詳細を正式に発表しました。

AMD RDNA 4 のご紹介: ゲーマー中心の GPU 革命

以前のRDNA 3 とその強化版である RDNA 3.5 の成功に続き、RDNA 4 アーキテクチャは愛好家の間で大きな興奮を生み出しました。超愛好家向けモデルはありませんが、RDNA 4 アーキテクチャは、特にゲームパフォーマンスの向上を目的とした大幅な改善を導入しています。

この最新のアーキテクチャには、いくつかの重要な機能強化が含まれています。

要求の厳しいゲームシナリオ向けの徹底的な最適化
ラスタライズと計算効率の向上
レイトレーシング性能の大幅な向上
包括的な機械学習機能
すべてのアプリケーションで帯域幅効率が向上
ゲーマーやコンテンツクリエイター向けにカスタマイズされたマルチメディア機能強化

RDNA 2 と比較すると、RDNA 4 GPU はラスタライズパフォーマンスがほぼ 2 倍、レイトレーシング機能が最大 2.5 倍向上し、コンピューティングユニットあたりの機械学習ワークロードが 3.5 倍という驚異的な改善を実現しています。RDNA 4 を構成するアーキテクチャコンポーネントについて詳しく見ていきましょう。

RDNA 4のコアイノベーション

RDNA 4 GPU アーキテクチャの中心となるのは、新しい Compute Engine です。

改良されたコンピューティングユニット (CU) は、デュアル SIMD32 ベクトルユニットと強化されたマトリックス演算を誇り、次の機能を提供します。

2x-16b および 4x-8b/4b 高密度マトリックスのレートが向上
4:2の比率で構造化されたスパース性により2倍以上の改善を実現
新しい8b浮動小数点データ型の導入
転置機能を備えた行列の読み込み

RDNA 4 にはシェーディングの大幅な改善も含まれており、RDNA 4 シェードがレジスタを動的に割り当てることができます。この革新により、CU は必要に応じてレジスタを要求および解放できるため、メモリのレイテンシが最適化され、コア全体の効率が向上します。

スカラーユニットの機能強化により、分割バリア、スピル/フィルプロセスの高速化、および命令プリフェッチ機能の強化を含む改善されたスケジュールとともに、新しい Float32 操作が導入されます。

注目すべきことに、第 3 世代のレイトレーシングユニットでは、レイ交差率が 2 倍になり、BVH 圧縮が強化され、レイトラバーサルとシェーディングが最適化されています。各レイアクセラレータは次のようにアップグレードされています。

ボックスと三角形の交差ユニットの増加
ハードウェアインスタンスの変換
レイトレーシングスタック管理の改善
強化されたBVH8とノード圧縮
効率性を高める有向境界ボックス

これらのアップグレードにより、BVH のメモリ消費量が大幅に削減されます。RDNA 4 では、革新的な 8 ワイド構造により、平均メモリ要件が RDNA 3 で必要だった量の 60% 未満に削減されます。

さらに、AMD は各ボックスの回転をエンコードすることでトラバーサルコストを最小限に抑える新しい方法を導入し、ジオメトリの境界をより厳密に設定できるようになりました。この設計アプローチにより、トラバーサルのステップとピークが減少し、パフォーマンス効率が 10% 大幅に向上します。その結果、RDNA 4 の CU は、一定のクロック速度と帯域幅の下で、RDNA 3 と比較して 2 倍のレイトラバーサル効率を実現します。

アップグレードされたコマンドプロセッサには、強化されたパケットアクセラレータが搭載され、キャッシュも大幅に改善されました。アーキテクチャには、最大 64 MB の第 3 世代 Infinity キャッシュ、8 MB の L2 キャッシュ、および 2 MB の集約 CU キャッシュが含まれています。RDNA 4 は GDDR6 との互換性を維持していますが、速度が最大 20.00 Gbps にアップグレードされ、256 ビットバスインターフェイス全体で最大容量が 16 GB になっています。強化されたメモリ圧縮技術により、帯域幅の要求も緩和されています。

人工知能の分野では、AMD は、改善されたテンソルレート、新しい 8b 浮動小数点データ型、構造化スパースサポート、機械学習強化の解像度アップスケーリングを特徴とする第 3 世代マトリックスアクセラレーションエンジンを活用しています。

正規化された条件で画像生成機能 (SDXL 1.5) を調べると、RDNA 4 CU は RDNA 3 と比較して 2 倍の顕著な向上を示します。

メディアエンジンは、アップグレードされたエンコード/デコードエンジンを備えたデュアル幅フォーマットに移行し、AVC の品質が最大 25% 向上し、H.264 および H.265 エンコードが強化され、AV1 スループットが 2 倍になりました。このエンジンは、低遅延ストリーミング環境にも最適化されています。さらに、Radiance ディスプレイエンジンは、更新されたスケーリングおよびシャープニングメカニズムとともに、DisplayPort 2.1a および HDMI 2.1b 出力に対応するようになりました。

RDNA 4 GPU アーキテクチャの探究: Navi 48 ダイ

RDNA 4 のブロック図は、TSMC の 4nm プロセスノード上に構築され、356.5 mm² のチップ領域内に約 539 億個のトランジスタを収容する完全な Navi 48 GPU WeU を示しています。この GPU アーキテクチャは、PCIe Gen5 標準に完全に準拠しています。

Navi 48 GPU (Radeon RX 9070 XT) を詳しく見てみましょう。これは 4 つのシェーダーエンジンで構成され、各エンジンには WGP ではなく複数の「デュアルコンピューティングユニット」が搭載されています。各デュアルコンピューティングユニットには 2 つのコンピューティングユニットが搭載されており、シェーダーエンジンごとに 8 つの DCU または 16 の CU が構成されます。チップ上には合計 32 の DCU または 64 の CU があり、合計で 4096 のストリームプロセッサまたはシェーダーユニットになります。

各 DCU には 2 つのレイアクセラレータエンジンが搭載されており、シェーダエンジンごとに 16 RA、合計 64 RA になります。さらに、各 DCU には 4 つのマトリックスアクセラレーションエンジンが組み込まれており、シェーダエンジンごとに 32 MA、合計 128 MA になります。シェーダエンジンには、4 つの RB+ ブロック、ラスタライザーエンジン、およびプリミティブユニットブロックも含まれています。チップ設計には、GPU の周囲に配置された 4 つのセクションの第 3 世代インフィニティキャッシュと 4 つの 4×16 ビットメモリコントローラが備わっています。

チップの中央には L2 キャッシュがあり、これには 2 つのジオメトリプロセッサ、2 つの非同期コンピューティングエンジン (ACE)、ハードウェアスケジューラ (HWS) とダイレクトメモリアクセス (DMA) がそれぞれ 1 つずつ含まれています。アーキテクチャ全体の接続は Infinity Fabric によって実現されます。

AMD によるゲームにおけるパストレーシングの未来

レイトレーシングは、現在 PC ゲームで人気があるにもかかわらず、従来のアプローチと見なされることがよくあります。反射、影、屈折をシミュレートすることで視覚的なリアリズムを高める一方で、パストレーシングと呼ばれるより洗練された新しい手法が登場し、特にハイエンドのゲームシナリオで注目を集めています。パストレーシングは、光のあらゆる潜在的な経路を計算して、さらにリアリズムを高めます。

NVIDIA は、サイバーパンク 2077 や Alan Wake II などのグラフィックを多用するタイトルにパストレーシングを実装し、驚異的なビジュアルを実現しました。これは、AI 支援によるアップスケーリングやフレーム生成などの高度な技術と、AI と機械学習を活用して従来のエンジン内ノイズ除去に代わる新しいレイ再構築テクノロジの開発によって実現されました。

AMD は、RDNA 4 パストレーシング機能を同様の戦略に合わせ、ニューラルスーパーサンプリングとノイズ除去テクノロジを導入して、グラフィックの忠実度を向上させています。

強化されたメディアとディスプレイ技術

メディアおよびディスプレイコンポーネントに対応するために、AMD はゲームのストリーミングと録画のパフォーマンスを向上させる大幅なアップグレードを導入しました。

AVC低遅延エンコード品質が25%向上
HEVCエンコード品質が11%向上
AV1エンコード効率を最適化するBフレーム
720pで最大30%のエンコードパフォーマンス向上
FFMPEG、OBS、Handbrakeとの互換性
VCN 低電力ビデオ再生により、AV1 および VP9 フォーマットのパフォーマンスが 50% 向上します。

ディスプレイテクノロジの改善は、強化された FreeSync 電力最適化に重点を置いており、デュアルディスプレイ構成でのアイドル時の電力消費を大幅に削減します。さらに、フレームスケジューリングのハードウェアサポートにより、タスクが GPU にオフロードされ、ビデオ再生中に CPU の電力を節約できます。最後に、Radeon Image Sharpening 2 は、1 つの簡単な切り替えですべての API にわたって高品質の画像を保証します。