Análise aprofundada da arquitetura AMD RDNA 4: novas unidades de computação, núcleos de raytracing aprimorados, recursos de IA e capacidades de rastreamento de caminho

Análise aprofundada da arquitetura AMD RDNA 4: novas unidades de computação, núcleos de raytracing aprimorados, recursos de IA e capacidades de rastreamento de caminho

A AMD apresentou oficialmente detalhes arquitetônicos abrangentes sobre sua futura arquitetura de GPU RDNA 4, que foi meticulosamente criada para a série Radeon RX 9000.

Apresentando AMD RDNA 4: Uma revolução de GPU centrada no jogador

Após o sucesso do RDNA 3 anterior e sua variante aprimorada RDNA 3.5, a arquitetura RDNA 4 gerou considerável entusiasmo entre os entusiastas. Embora não tenha modelos ultraentusiastas, a arquitetura RDNA 4 introduz melhorias significativas voltadas especificamente para melhorar o desempenho em jogos.

Visão geral da arquitetura AMD RDNA 4

Esta arquitetura mais recente apresenta vários aprimoramentos importantes:

  • Otimização intensiva para cenários de jogos exigentes
  • Rasterização aprimorada e eficiência de computação
  • Avanços significativos no desempenho do traçado de raios
  • Capacidades abrangentes de aprendizado de máquina
  • Melhoria na eficiência da largura de banda em todos os aplicativos
  • Melhorias multimídia personalizadas para jogadores e criadores de conteúdo
Melhorias na arquitetura AMD RDNA 4

Em comparação com o RDNA 2, as GPUs RDNA 4 oferecem quase o dobro do desempenho de rasterização, até 2, 5 vezes mais recursos de ray tracing e uma impressionante melhoria de 3, 5 vezes nas cargas de trabalho de aprendizado de máquina por unidade de computação. Vamos nos aprofundar nos componentes arquitetônicos que compõem o RDNA 4.

Principais inovações em RDNA 4

A peça central da arquitetura da GPU RDNA 4 é o novo Compute Engine.

Mecanismo de computação RDNA 4

As Unidades de Computação (CUs) renovadas contam com unidades de vetor SIMD32 duplas e operações de matriz aprimoradas, oferecendo:

  • Taxas aumentadas para matrizes densas 2x-16b e 4x-8b/4b
  • Escassez estruturada em uma proporção de 4:2 para uma melhoria de mais de 2x
  • Introdução de novos tipos de dados de ponto flutuante 8b
  • Carregamento de matriz com recursos de transposição

O RDNA 4 também inclui melhorias substanciais de sombreamento, permitindo que os shaders do RDNA 4 aloquem registros dinamicamente. Essa inovação permite que as CUs solicitem e liberem registros conforme necessário, otimizando assim a latência da memória e aumentando a eficiência geral do núcleo.

Alocação dinâmica de registros

Os aprimoramentos da unidade escalar introduzem novas operações Float32 juntamente com agendamento aprimorado, que inclui barreiras divididas, processos acelerados de derramamento/preenchimento e recursos aprimorados de pré-busca de instruções.

Melhorias na unidade escalar RDNA 4

Significativamente, as unidades de traçado de raios de 3ª geração agora oferecem taxas de interseção de raios dobradas, compressão BVH aprimorada e travessia e sombreamento de raios otimizados. Cada acelerador de raios foi atualizado com:

  • Unidades de intersecção de caixa e triângulo aumentadas
  • Transformações de instâncias de hardware
  • Gerenciamento de pilha de traçado de raios aprimorado
  • Compressão aprimorada de BVH8 e nó
  • Caixas delimitadoras orientadas para maior eficiência
Melhorias no Ray TracingRecursos aprimorados de rastreamento de raiosInovações na arquitetura de Ray TracingMelhorias no Ray TracingProcessamento de raios aprimorado

Essas atualizações levam a um consumo de memória consideravelmente menor para o BVH. O RDNA 4 atinge uma redução média de requisito de memória para menos de 60% do que era necessário para o RDNA 3, em grande parte devido à sua inovadora estrutura de 8 polegadas.

Além disso, a AMD introduziu um novo método para minimizar os custos de travessia codificando rotações para cada caixa, permitindo uma delimitação mais rigorosa da geometria. Essa abordagem de design diminui os passos e picos de travessia, aumentando significativamente a eficiência do desempenho em 10%.Consequentemente, as CUs do RDNA 4 fornecem o dobro da eficácia de travessia de raios em comparação ao RDNA 3 sob velocidades de clock e largura de banda consistentes.

Um Processador de Comando atualizado apresenta aceleradores de pacotes aprimorados, enquanto o Cache viu melhorias substanciais. A arquitetura agora inclui até 64 MB de Infinity Cache de 3ª geração, 8 MB de cache L2 e 2 MB de cache CU agregado. O RDNA 4 mantém a compatibilidade com GDDR6, mas com uma atualização para velocidades mais rápidas, atingindo até 20, 00 Gbps e uma capacidade máxima de 16 GB em uma interface de barramento de 256 bits. Técnicas aprimoradas de compactação de memória também aliviam as demandas de largura de banda.

Arquitetura de memória RDNA 4

No campo da inteligência artificial, a AMD utiliza seu mecanismo Matrix Acceleration de 3ª geração, que apresenta taxas de tensor aprimoradas, novos tipos de dados de ponto flutuante 8b, suporte à escassez estruturada e aumento de resolução aprimorado por aprendizado de máquina.

Melhorias de IA e MLSuporte de tensor aprimoradoGráficos acelerados de aprendizado de máquinaProcessamento de imagem orientado por IA

Ao examinar as capacidades de geração de imagens (SDXL 1.5) em condições normalizadas, as CUs do RDNA 4 demonstram um aumento notável de 2x em comparação ao RDNA 3.

Desempenho de geração de imagemMelhorias na renderização visualCapacidade de produção de imagemTecnologia visual avançada

O Media Engine faz a transição para um formato de largura dupla, equipado com mecanismos de codificação/decodificação atualizados, resultando em melhorias de qualidade de até 25% em AVC, melhorias na codificação H.264 e H.265 e uma duplicação na taxa de transferência AV1. Este mecanismo também é otimizado para ambientes de streaming de baixa latência. Além disso, o Radiance Display Engine agora acomoda saídas DisplayPort 2.1a e HDMI 2.1b, juntamente com um mecanismo de dimensionamento e nitidez atualizado.

Explorando a arquitetura da GPU RDNA 4: O Navi 48 Die

O diagrama de blocos RDNA 4 mostra a GPU WeU Navi 48 completa, que é construída no nó de processo de 4 nm da TSMC, abrigando aproximadamente 53, 9 bilhões de transistores em uma área de chip de 356, 5 mm². Esta arquitetura de GPU está em total conformidade com os padrões PCIe Gen5.

Vamos dissecar a GPU Navi 48 (Radeon RX 9070 XT), consistindo de quatro shaders engines, cada um abrigando múltiplas “Dual Compute Units” em vez de WGPs. Cada Dual Compute Unit contém duas Compute Units, levando a uma configuração de oito DCUs ou 16 CUs por Shader Engine. Isso totaliza 32 DCUs ou 64 CUs no chip, culminando em impressionantes 4096 processadores de fluxo ou unidades shader.

Arquitetura da GPU Navi 48

Cada DCU é equipada com dois motores de aceleração de raios, traduzindo-se em 16 RAs por Shader Engine e 64 RAs no total. Além disso, cada DCU incorpora quatro Matrix Acceleration Engines, totalizando 32 MAs por Shader Engine e 128 MAs no total. Os Shader Engines também contêm quatro blocos RB+, um motor rasterizador e um bloco de unidade primitiva. O design do chip apresenta quatro seções de Infinity Caches de 3ª geração e quatro controladores de memória de 4×16 bits posicionados ao redor da periferia da GPU.

No centro do chip residem os caches L2, que abrangem dois processadores Geometry, dois Asynchronous Compute Engines (ACE) e um de cada Hardware Scheduler (HWS) e Direct Memory Access (DMA).A conectividade em toda a arquitetura é obtida por meio do Infinity Fabric.

O futuro do rastreamento de caminho em jogos com AMD

O ray tracing, apesar de sua popularidade atual em jogos de PC, é frequentemente visto como uma abordagem tradicional. Embora ele melhore o realismo visual simulando reflexos, sombras e refrações, uma técnica mais nova e sofisticada chamada Path Tracing surgiu, ganhando força especialmente em cenários de jogos de ponta. O Path Tracing calcula cada caminho potencial de luz para um realismo ainda maior.

Avanços gráficos de rastreamento de caminho

A NVIDIA implementou com sucesso o Path Tracing em títulos graficamente intensivos como Cyberpunk 2077 e Alan Wake II, exibindo visuais impressionantes. Isso foi possível por meio de técnicas avançadas, como upscaling assistido por IA e geração de quadros, juntamente com o desenvolvimento de uma nova tecnologia de reconstrução de raios que substitui os tradicionais denoisers no mecanismo, confiando em IA e aprendizado de máquina.

A AMD está alinhando seus recursos de RDNA 4 Path Tracing com uma estratégia semelhante, implantando suas tecnologias Neural Supersampling e Denoising para obter fidelidade gráfica aprimorada.

Tecnologias de mídia e exibição aprimoradas

Em relação aos componentes de mídia e exibição, a AMD introduziu atualizações substanciais para aumentar o desempenho de transmissão e gravação de jogos:

  • Uma melhoria de 25% na qualidade da codificação de baixa latência AVC
  • Melhoria de 11% na qualidade da codificação HEVC
  • Quadros B otimizados para eficiência de codificação AV1
  • Aumento de até 30% no desempenho de codificação em 720p
  • Compatibilidade com FFMPEG, OBS e Handbrake
  • Reprodução de vídeo de baixo consumo de energia VCN, proporcionando um aumento de desempenho de 50% para formatos AV1 e VP9
Melhorias no mecanismo de mídia

As melhorias na tecnologia de exibição se concentram na otimização de energia FreeSync aprimorada, o que reduz significativamente o consumo de energia ocioso em configurações de tela dupla. Além disso, o suporte de hardware para agendamento de quadros descarrega tarefas para a GPU, permitindo que as CPUs conservem energia durante a reprodução de vídeo. Por fim, o Radeon Image Sharpening 2 garante imagens de alta qualidade em todas as APIs com uma alternância única e direta.

Atualizações do mecanismo de exibição

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *