GPU AMD Instinct MI350: Liberando o poder da IA ​​com chiplet 3D de 3 nm, arquitetura CDNA 4, 185 bilhões de transistores, TBP de 1400 W e memória de 288 GB para suporte a mais de 4000 bilhões de LLM

GPU AMD Instinct MI350: Liberando o poder da IA ​​com chiplet 3D de 3 nm, arquitetura CDNA 4, 185 bilhões de transistores, TBP de 1400 W e memória de 288 GB para suporte a mais de 4000 bilhões de LLM

Na Hot Chips 2025, a AMD revelou detalhes abrangentes sobre seu mais recente acelerador de IA Instinct MI350, equipado com a inovadora arquitetura CDNA 4. O anúncio ocorre apenas dois meses após o lançamento inicial da série MI350, projetada especificamente para cargas de trabalho de IA exigentes.

AMD revela insights arquitetônicos do Instinct MI350 na Hot Chips 2025, posicionado para LLMs expansivos

GPUs AMD Instinct MI350 apresentadas na Hot Chips 2025.

A série MI350 respondeu ao crescimento exponencial de modelos de linguagem de grande porte (LLMs), impulsionando a necessidade de avanços tanto nos formatos de dados quanto nas capacidades de memória dos chips. Ao expandir os limites nessas áreas, a AMD aprimorou significativamente o desempenho e a eficiência do processamento de IA.

Tendências em grandes modelos de IA: crescimento na contagem de parâmetros, comprimento do contexto, processamento de IA agêntica

Os aprimoramentos na arquitetura CDNA-4 proporcionam aumentos substanciais tanto na capacidade quanto na largura de banda da Memória de Alta Largura de Banda (HBM), facilitando o treinamento e a inferência de IA mais rápidos em modelos mais abrangentes. Os chips aumentaram notavelmente as velocidades de link, alcançando melhor eficiência energética e desempenho geral.

A IA generativa precisa de: memória de GPU, largura de banda, ALUs, eficiência de energia, treinamento de modelos em larga escala.

Essa nova arquitetura proporciona um processamento mais rápido, otimizando o fornecimento de energia e aprimorando a conectividade por meio do Infinity Fabric para maior eficiência de largura de banda durante as operações. Ela também suporta diversos formatos de dados de menor precisão, como FP8 e os tipos MXFP6 e MXFP4 microescalados, padrão do setor.

Variantes e especificações da série MI350

A série AMD MI350 inclui principalmente o MI350X, um projeto refrigerado a ar com potência total da placa (TBP) de 1000 W e velocidade máxima de clock de 2, 2 GHz. Na extremidade superior, o modelo MI355X é projetado para data centers refrigerados a líquido, apresentando uma TBP de 1400 W e velocidade máxima de clock de 2, 4 GHz.

Especificações da GPU AMD Instinct MI350: transistores 185B e design avançado de chiplet 3D.

Essas especificações impressionantes são resultado da vasta experiência em engenharia da AMD, apresentando um design sofisticado de 185 bilhões de transistores em uma configuração 3D Multi-Chiplet. Isso inclui memória HBM3e avançada e utiliza tecnologias de processo de 3 nm e 6 nm para otimizar a relação custo-benefício e o desempenho.

Diagrama da arquitetura do chiplet AMD Instinct MI350.

Análise e Capacidades Arquitetônicas

Os detalhes arquitetônicos revelam um total de oito Accelerator Complex Dies (XCDs) utilizados por pacote MI350, fabricados com a tecnologia de ponta de 3 nm da TSMC. Cada chip é conectado por meio de uma infraestrutura robusta projetada para máxima produtividade.

Cada matriz base de E/S opera em um processo de 6 nm mais maduro, garantindo maiores taxas de rendimento e melhor custo-benefício. A configuração da matriz facilita o processamento eficiente da memória por meio de oito sites HBM3e, fornecendo consideráveis ​​288 GB de memória no acelerador.

Diagrama do chip da GPU AMD Instinct MI350.

Além disso, o subsistema de memória suporta uma variedade de configurações para aprimorar os recursos de computação de forma eficiente. Isso inclui uma arquitetura de memória interna abrangente e camadas de cache projetadas para maximizar o desempenho durante operações com uso intensivo de dados.

Métricas de Desempenho e Vantagem Competitiva

Em termos de poder de computação bruto, a série MI350 consegue oferecer melhorias consideráveis ​​quando comparada com seus predecessores, apresentando até 20 PFLOPs de capacidade de computação FP4/FP6 — um aumento impressionante de desempenho quatro vezes maior graças aos avanços na tecnologia HBM3e e melhorias de cache associadas.

Aumento no desempenho da GPU AMD Instinct MI350 em comparação aos concorrentes.

A AMD indicou que a série Instinct MI350 estará disponível por meio de vários parceiros de distribuição a partir do terceiro trimestre de 2025. Desenvolvimentos futuros também estão no horizonte, com a série MI400 prevista para ser lançada em 2026.

Comparação dos aceleradores de IA AMD Instinct:

Nome do Acelerador AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
Arquitetura de GPU CDNA Next / UDNA CDNA Next / UDNA CDNA 4 Água Vanjaram (CDNA 3) Água Vanjaram (CDNA 3) Aldebaran (CDNA 2)
Nó de processo da GPU A definir A definir 3 nm 5 nm + 6 nm 5 nm + 6 nm 6 nm
XCDs (Chiplets) A definir 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM), 1 (Por dado)
Núcleos de GPU A definir A definir 16.384 19.456 19.456 14.080
Velocidade máxima do relógio A definir A definir 2400 MHz 2100 MHz 2100 MHz 1700 MHz
INT8 Computação A definir A definir 5200 TOPS 2614 TOPS 2614 TOPS 383 TOPs
Matriz FP6/FP4 A definir 40 PFLOPs 20 PFLOPs N / D N / D N / D
Matriz FP8 A definir 20 PFLOPs 5 PFLOPs 2.6 PFLOPs 2.6 PFLOPs N / D
Matriz FP16 A definir 10 PFLOPs 2, 5 PFLOPs 1.3 PFLOPs 1.3 PFLOPs 383 TFLOPs
Vetor FP32 A definir A definir 157, 3 TFLOPs 163, 4 TFLOPs 163, 4 TFLOPs 95, 7 TFLOPs
Vetor FP64 A definir A definir 78, 6 TFLOPs 81, 7 TFLOPs 81, 7 TFLOPs 47, 9 TFLOPs
VRAM A definir 432 GB HBM4 288 GB HBM3e 256 GB HBM3e 192 GB HBM3 128 GB HBM2e
Cache Infinito A definir A definir 256 MB 256 MB 256 MB N / D
Relógio de memória A definir 19, 6 TB/s 8, 0 Gbps 5, 9 Gbps 5, 2 Gbps 3, 2 Gbps
Barramento de memória A definir A definir 8192 bits 8192 bits 8192 bits 8192 bits
Largura de banda de memória A definir A definir 8 TB/s 6, 0 TB/s 5, 3 TB/s 3, 2 TB/s
Fator de forma A definir A definir OAM OAM OAM OAM
Resfriamento A definir A definir Passivo / Líquido Resfriamento Passivo Resfriamento Passivo Resfriamento Passivo
TDP (máx.) A definir A definir 1400 W (355X) 1000 W 750 W 560 W

Para mais detalhes, visite a fonte.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *