
AMD は、Radeon RX 9000 シリーズ向けに細心の注意を払って開発された、近日発売予定の RDNA 4 GPU アーキテクチャに関する包括的なアーキテクチャ詳細を正式に発表しました。
AMD RDNA 4 のご紹介: ゲーマー中心の GPU 革命
以前のRDNA 3 とその強化版である RDNA 3.5 の成功に続き、RDNA 4 アーキテクチャは愛好家の間で大きな興奮を生み出しました。超愛好家向けモデルはありませんが、RDNA 4 アーキテクチャは、特にゲームパフォーマンスの向上を目的とした大幅な改善を導入しています。

この最新のアーキテクチャには、いくつかの重要な機能強化が含まれています。
- 要求の厳しいゲームシナリオ向けの徹底的な最適化
- ラスタライズと計算効率の向上
- レイトレーシング性能の大幅な向上
- 包括的な機械学習機能
- すべてのアプリケーションで帯域幅効率が向上
- ゲーマーやコンテンツクリエイター向けにカスタマイズされたマルチメディア機能強化

RDNA 2 と比較すると、RDNA 4 GPU はラスタライズ パフォーマンスがほぼ 2 倍、レイ トレーシング機能が最大 2.5 倍向上し、コンピューティング ユニットあたりの機械学習ワークロードが 3.5 倍という驚異的な改善を実現しています。RDNA 4 を構成するアーキテクチャ コンポーネントについて詳しく見ていきましょう。
RDNA 4のコアイノベーション
RDNA 4 GPU アーキテクチャの中心となるのは、新しい Compute Engine です。

改良されたコンピューティング ユニット (CU) は、デュアル SIMD32 ベクトル ユニットと強化されたマトリックス演算を誇り、次の機能を提供します。
- 2x-16b および 4x-8b/4b 高密度マトリックスのレートが向上
- 4:2の比率で構造化されたスパース性により2倍以上の改善を実現
- 新しい8b浮動小数点データ型の導入
- 転置機能を備えた行列の読み込み
RDNA 4 にはシェーディングの大幅な改善も含まれており、RDNA 4 シェードがレジスタを動的に割り当てることができます。この革新により、CU は必要に応じてレジスタを要求および解放できるため、メモリのレイテンシが最適化され、コア全体の効率が向上します。

スカラー ユニットの機能強化により、分割バリア、スピル/フィル プロセスの高速化、および命令プリフェッチ機能の強化を含む改善されたスケジュールとともに、新しい Float32 操作が導入されます。

注目すべきことに、第 3 世代のレイ トレーシング ユニットでは、レイ交差率が 2 倍になり、BVH 圧縮が強化され、レイ トラバーサルとシェーディングが最適化されています。各レイ アクセラレータは次のようにアップグレードされています。
- ボックスと三角形の交差ユニットの増加
- ハードウェアインスタンスの変換
- レイトレーシングスタック管理の改善
- 強化されたBVH8とノード圧縮
- 効率性を高める有向境界ボックス





これらのアップグレードにより、BVH のメモリ消費量が大幅に削減されます。RDNA 4 では、革新的な 8 ワイド構造により、平均メモリ要件が RDNA 3 で必要だった量の 60% 未満に削減されます。
さらに、AMD は各ボックスの回転をエンコードすることでトラバーサル コストを最小限に抑える新しい方法を導入し、ジオメトリの境界をより厳密に設定できるようになりました。この設計アプローチにより、トラバーサルのステップとピークが減少し、パフォーマンス効率が 10% 大幅に向上します。その結果、RDNA 4 の CU は、一定のクロック速度と帯域幅の下で、RDNA 3 と比較して 2 倍のレイ トラバーサル効率を実現します。
アップグレードされたコマンド プロセッサには、強化されたパケット アクセラレータが搭載され、キャッシュも大幅に改善されました。アーキテクチャには、最大 64 MB の第 3 世代 Infinity キャッシュ、8 MB の L2 キャッシュ、および 2 MB の集約 CU キャッシュが含まれています。RDNA 4 は GDDR6 との互換性を維持していますが、速度が最大 20.00 Gbps にアップグレードされ、256 ビット バス インターフェイス全体で最大容量が 16 GB になっています。強化されたメモリ圧縮技術により、帯域幅の要求も緩和されています。

人工知能の分野では、AMD は、改善されたテンソル レート、新しい 8b 浮動小数点データ型、構造化スパース サポート、機械学習強化の解像度アップスケーリングを特徴とする第 3 世代マトリックス アクセラレーション エンジンを活用しています。




正規化された条件で画像生成機能 (SDXL 1.5) を調べると、RDNA 4 CU は RDNA 3 と比較して 2 倍の顕著な向上を示します。




メディア エンジンは、アップグレードされたエンコード/デコード エンジンを備えたデュアル幅フォーマットに移行し、AVC の品質が最大 25% 向上し、H.264 および H.265 エンコードが強化され、AV1 スループットが 2 倍になりました。このエンジンは、低遅延ストリーミング環境にも最適化されています。さらに、Radiance ディスプレイ エンジンは、更新されたスケーリングおよびシャープニング メカニズムとともに、DisplayPort 2.1a および HDMI 2.1b 出力に対応するようになりました。
RDNA 4 GPU アーキテクチャの探究: Navi 48 ダイ
RDNA 4 のブロック図は、TSMC の 4nm プロセス ノード上に構築され、356.5 mm² のチップ領域内に約 539 億個のトランジスタを収容する完全な Navi 48 GPU WeU を示しています。この GPU アーキテクチャは、PCIe Gen5 標準に完全に準拠しています。
Navi 48 GPU (Radeon RX 9070 XT) を詳しく見てみましょう。これは 4 つのシェーダー エンジンで構成され、各エンジンには WGP ではなく複数の「デュアル コンピューティング ユニット」が搭載されています。各デュアル コンピューティング ユニットには 2 つのコンピューティング ユニットが搭載されており、シェーダー エンジンごとに 8 つの DCU または 16 の CU が構成されます。チップ上には合計 32 の DCU または 64 の CU があり、合計で 4096 のストリーム プロセッサまたはシェーダー ユニットになります。

各 DCU には 2 つのレイ アクセラレータ エンジンが搭載されており、シェーダ エンジンごとに 16 RA、合計 64 RA になります。さらに、各 DCU には 4 つのマトリックス アクセラレーション エンジンが組み込まれており、シェーダ エンジンごとに 32 MA、合計 128 MA になります。シェーダ エンジンには、4 つの RB+ ブロック、ラスタライザー エンジン、およびプリミティブ ユニット ブロックも含まれています。チップ設計には、GPU の周囲に配置された 4 つのセクションの第 3 世代インフィニティ キャッシュと 4 つの 4×16 ビット メモリ コントローラが備わっています。
チップの中央には L2 キャッシュがあり、これには 2 つのジオメトリ プロセッサ、2 つの非同期コンピューティング エンジン (ACE)、ハードウェア スケジューラ (HWS) とダイレクト メモリ アクセス (DMA) がそれぞれ 1 つずつ含まれています。アーキテクチャ全体の接続は Infinity Fabric によって実現されます。
AMD によるゲームにおけるパス トレーシングの未来
レイ トレーシングは、現在 PC ゲームで人気があるにもかかわらず、従来のアプローチと見なされることがよくあります。反射、影、屈折をシミュレートすることで視覚的なリアリズムを高める一方で、パス トレーシングと呼ばれるより洗練された新しい手法が登場し、特にハイエンドのゲーム シナリオで注目を集めています。パス トレーシングは、光のあらゆる潜在的な経路を計算して、さらにリアリズムを高めます。

NVIDIA は、サイバーパンク 2077 や Alan Wake II などのグラフィックを多用するタイトルにパス トレーシングを実装し、驚異的なビジュアルを実現しました。これは、AI 支援によるアップスケーリングやフレーム生成などの高度な技術と、AI と機械学習を活用して従来のエンジン内ノイズ除去に代わる新しいレイ再構築テクノロジの開発によって実現されました。
AMD は、RDNA 4 パス トレーシング機能を同様の戦略に合わせ、ニューラル スーパーサンプリングとノイズ除去テクノロジを導入して、グラフィックの忠実度を向上させています。
強化されたメディアとディスプレイ技術
メディアおよびディスプレイ コンポーネントに対応するために、AMD はゲームのストリーミングと録画のパフォーマンスを向上させる大幅なアップグレードを導入しました。
- AVC低遅延エンコード品質が25%向上
- HEVCエンコード品質が11%向上
- AV1エンコード効率を最適化するBフレーム
- 720pで最大30%のエンコードパフォーマンス向上
- FFMPEG、OBS、Handbrakeとの互換性
- VCN 低電力ビデオ再生により、AV1 および VP9 フォーマットのパフォーマンスが 50% 向上します。

ディスプレイ テクノロジの改善は、強化された FreeSync 電力最適化に重点を置いており、デュアル ディスプレイ構成でのアイドル時の電力消費を大幅に削減します。さらに、フレーム スケジューリングのハードウェア サポートにより、タスクが GPU にオフロードされ、ビデオ再生中に CPU の電力を節約できます。最後に、Radeon Image Sharpening 2 は、1 つの簡単な切り替えですべての API にわたって高品質の画像を保証します。

コメントを残す ▼