
Na Hot Chips 2025, a AMD revelou detalhes abrangentes sobre seu mais recente acelerador de IA Instinct MI350, equipado com a inovadora arquitetura CDNA 4. O anúncio ocorre apenas dois meses após o lançamento inicial da série MI350, projetada especificamente para cargas de trabalho de IA exigentes.
AMD revela insights arquitetônicos do Instinct MI350 na Hot Chips 2025, posicionado para LLMs expansivos

A série MI350 respondeu ao crescimento exponencial de modelos de linguagem de grande porte (LLMs), impulsionando a necessidade de avanços tanto nos formatos de dados quanto nas capacidades de memória dos chips. Ao expandir os limites nessas áreas, a AMD aprimorou significativamente o desempenho e a eficiência do processamento de IA.

Os aprimoramentos na arquitetura CDNA-4 proporcionam aumentos substanciais tanto na capacidade quanto na largura de banda da Memória de Alta Largura de Banda (HBM), facilitando o treinamento e a inferência de IA mais rápidos em modelos mais abrangentes. Os chips aumentaram notavelmente as velocidades de link, alcançando melhor eficiência energética e desempenho geral.

Essa nova arquitetura proporciona um processamento mais rápido, otimizando o fornecimento de energia e aprimorando a conectividade por meio do Infinity Fabric para maior eficiência de largura de banda durante as operações. Ela também suporta diversos formatos de dados de menor precisão, como FP8 e os tipos MXFP6 e MXFP4 microescalados, padrão do setor.
Variantes e especificações da série MI350
A série AMD MI350 inclui principalmente o MI350X, um projeto refrigerado a ar com potência total da placa (TBP) de 1000 W e velocidade máxima de clock de 2, 2 GHz. Na extremidade superior, o modelo MI355X é projetado para data centers refrigerados a líquido, apresentando uma TBP de 1400 W e velocidade máxima de clock de 2, 4 GHz.

Essas especificações impressionantes são resultado da vasta experiência em engenharia da AMD, apresentando um design sofisticado de 185 bilhões de transistores em uma configuração 3D Multi-Chiplet. Isso inclui memória HBM3e avançada e utiliza tecnologias de processo de 3 nm e 6 nm para otimizar a relação custo-benefício e o desempenho.

Análise e Capacidades Arquitetônicas
Os detalhes arquitetônicos revelam um total de oito Accelerator Complex Dies (XCDs) utilizados por pacote MI350, fabricados com a tecnologia de ponta de 3 nm da TSMC. Cada chip é conectado por meio de uma infraestrutura robusta projetada para máxima produtividade.
Cada matriz base de E/S opera em um processo de 6 nm mais maduro, garantindo maiores taxas de rendimento e melhor custo-benefício. A configuração da matriz facilita o processamento eficiente da memória por meio de oito sites HBM3e, fornecendo consideráveis 288 GB de memória no acelerador.

Além disso, o subsistema de memória suporta uma variedade de configurações para aprimorar os recursos de computação de forma eficiente. Isso inclui uma arquitetura de memória interna abrangente e camadas de cache projetadas para maximizar o desempenho durante operações com uso intensivo de dados.
Métricas de Desempenho e Vantagem Competitiva
Em termos de poder de computação bruto, a série MI350 consegue oferecer melhorias consideráveis quando comparada com seus predecessores, apresentando até 20 PFLOPs de capacidade de computação FP4/FP6 — um aumento impressionante de desempenho quatro vezes maior graças aos avanços na tecnologia HBM3e e melhorias de cache associadas.

A AMD indicou que a série Instinct MI350 estará disponível por meio de vários parceiros de distribuição a partir do terceiro trimestre de 2025. Desenvolvimentos futuros também estão no horizonte, com a série MI400 prevista para ser lançada em 2026.
Comparação dos aceleradores de IA AMD Instinct:
Nome do Acelerador | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
Arquitetura de GPU | CDNA Next / UDNA | CDNA Next / UDNA | CDNA 4 | Água Vanjaram (CDNA 3) | Água Vanjaram (CDNA 3) | Aldebaran (CDNA 2) |
Nó de processo da GPU | A definir | A definir | 3 nm | 5 nm + 6 nm | 5 nm + 6 nm | 6 nm |
XCDs (Chiplets) | A definir | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (Por dado) |
Núcleos de GPU | A definir | A definir | 16.384 | 19.456 | 19.456 | 14.080 |
Velocidade máxima do relógio | A definir | A definir | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
INT8 Computação | A definir | A definir | 5200 TOPS | 2614 TOPS | 2614 TOPS | 383 TOPs |
Matriz FP6/FP4 | A definir | 40 PFLOPs | 20 PFLOPs | N / D | N / D | N / D |
Matriz FP8 | A definir | 20 PFLOPs | 5 PFLOPs | 2.6 PFLOPs | 2.6 PFLOPs | N / D |
Matriz FP16 | A definir | 10 PFLOPs | 2, 5 PFLOPs | 1.3 PFLOPs | 1.3 PFLOPs | 383 TFLOPs |
Vetor FP32 | A definir | A definir | 157, 3 TFLOPs | 163, 4 TFLOPs | 163, 4 TFLOPs | 95, 7 TFLOPs |
Vetor FP64 | A definir | A definir | 78, 6 TFLOPs | 81, 7 TFLOPs | 81, 7 TFLOPs | 47, 9 TFLOPs |
VRAM | A definir | 432 GB HBM4 | 288 GB HBM3e | 256 GB HBM3e | 192 GB HBM3 | 128 GB HBM2e |
Cache Infinito | A definir | A definir | 256 MB | 256 MB | 256 MB | N / D |
Relógio de memória | A definir | 19, 6 TB/s | 8, 0 Gbps | 5, 9 Gbps | 5, 2 Gbps | 3, 2 Gbps |
Barramento de memória | A definir | A definir | 8192 bits | 8192 bits | 8192 bits | 8192 bits |
Largura de banda de memória | A definir | A definir | 8 TB/s | 6, 0 TB/s | 5, 3 TB/s | 3, 2 TB/s |
Fator de forma | A definir | A definir | OAM | OAM | OAM | OAM |
Resfriamento | A definir | A definir | Passivo / Líquido | Resfriamento Passivo | Resfriamento Passivo | Resfriamento Passivo |
TDP (máx.) | A definir | A definir | 1400 W (355X) | 1000 W | 750 W | 560 W |
Para mais detalhes, visite a fonte.
Deixe um comentário