GPU AMD Instinct MI350: Libere el poder de la IA con chiplet 3D de 3 nm, arquitectura CDNA 4, 185 mil millones de transistores, 1400 W TBP y 288 GB de memoria para más de 4000 B LLM

GPU AMD Instinct MI350: Libere el poder de la IA con chiplet 3D de 3 nm, arquitectura CDNA 4, 185 mil millones de transistores, 1400 W TBP y 288 GB de memoria para más de 4000 B LLM

En Hot Chips 2025, AMD presentó detalles completos sobre su nuevo acelerador de IA Instinct MI350, impulsado por la innovadora arquitectura CDNA 4. Este anuncio se produce tan solo dos meses después del lanzamiento inicial de la serie MI350, diseñada específicamente para cargas de trabajo de IA exigentes.

AMD presenta las perspectivas arquitectónicas de Instinct MI350 en Hot Chips 2025, posicionado para LLM expansivos

Las GPU AMD Instinct MI350 se exhibieron en Hot Chips 2025.

La serie MI350 respondió al crecimiento exponencial de los modelos de lenguaje grande (LLM), lo que impulsó la necesidad de avances tanto en los formatos de datos como en la capacidad de memoria del chip. Al ampliar los límites en estas áreas, AMD mejoró significativamente el rendimiento y la eficiencia del procesamiento de IA.

Tendencias en modelos de IA a gran escala: aumento del número de parámetros, longitud del contexto y procesamiento de IA agente

Las mejoras en la arquitectura CDNA-4 proporcionan aumentos sustanciales en la capacidad y el ancho de banda para la memoria de alto ancho de banda (HBM), lo que facilita un entrenamiento e inferencia de IA más rápidos en modelos más expansivos. Los chips han aumentado notablemente la velocidad de enlace, logrando una mejor eficiencia energética y un mejor rendimiento general.

Necesidades de IA generativa: memoria de GPU, ancho de banda, ALU, eficiencia energética, entrenamiento de modelos a gran escala.

Esta nueva arquitectura logra un procesamiento más rápido al optimizar el suministro de energía y mejorar la conectividad a través de Infinity Fabric para una mayor eficiencia del ancho de banda durante las operaciones. También admite diversos formatos de datos de menor precisión, como FP8 y los tipos MXFP6 y MXFP4 a microescala, estándar de la industria.

Variantes y especificaciones de la serie MI350

La serie AMD MI350 incluye principalmente el MI350X, un diseño refrigerado por aire con una potencia total de la placa (TBP) de 1000 W y una velocidad de reloj máxima de 2, 2 GHz. En el extremo superior, el modelo MI355X está diseñado para centros de datos refrigerados por líquido, con una TBP de 1400 W y una velocidad de reloj máxima de 2, 4 GHz.

Especificaciones de la GPU AMD Instinct MI350: transistores 185B y diseño avanzado de chiplets 3D.

Estas impresionantes especificaciones son fruto de la amplia experiencia en ingeniería de AMD, que incluye un sofisticado diseño de 185 000 millones de transistores en una configuración 3D Multi-Chiplet. Esto incluye memoria HBM3e avanzada y utiliza tecnologías de proceso de 3 nm y 6 nm para optimizar la rentabilidad y el rendimiento.

Diagrama de arquitectura del chiplet AMD Instinct MI350.

Desglose arquitectónico y capacidades

Los detalles arquitectónicos revelan un total de ocho matrices de complejo acelerador (XCD) por encapsulado MI350, fabricadas con la tecnología líder de 3 nm de TSMC. Cada chip está conectado mediante una robusta infraestructura diseñada para maximizar el rendimiento.

Cada matriz base de E/S funciona con un proceso de 6 nm más avanzado, lo que garantiza un mayor rendimiento y una mejor relación calidad-precio. La configuración de la matriz facilita la gestión eficaz de la memoria a través de ocho sitios HBM3e, lo que proporciona una considerable capacidad de 288 GB de memoria en todo el acelerador.

Diagrama de chiplets de GPU AMD Instinct MI350.

Además, el subsistema de memoria admite diversas configuraciones para optimizar la capacidad de cómputo. Esto incluye una arquitectura integral de memoria interna y caché en niveles, diseñada para maximizar el rendimiento durante operaciones con uso intensivo de datos.

Métricas de rendimiento y ventaja competitiva

En términos de potencia de cálculo bruta, la serie MI350 logra ofrecer mejoras considerables en comparación con sus predecesores, mostrando hasta 20 PFLOP de capacidad de cálculo FP4/FP6, una impresionante mejora del rendimiento de cuatro veces gracias a los avances en la tecnología HBM3e y las mejoras de caché asociadas.

Mejora del rendimiento de la GPU AMD Instinct MI350 en comparación con la competencia.

AMD ha indicado que la serie Instinct MI350 estará disponible a través de múltiples socios de distribución a partir del tercer trimestre de 2025. También se vislumbran desarrollos futuros, y se anticipa que la serie MI400 se lanzará en 2026.

Comparación de los aceleradores de IA AMD Instinct:

Nombre del acelerador AMD Instinct MI500 AMD Instinct MI400 AMD Instinct MI350X AMD Instinct MI325X AMD Instinct MI300X AMD Instinct MI250X
Arquitectura de GPU CDNA Next / UDNA CDNA Next / UDNA ADNc 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebarán (CDNA 2)
Nodo de proceso de GPU Por determinar Por determinar 3 nm 5 nm + 6 nm 5 nm + 6 nm 6 nm
XCD (Chiplets) Por determinar 8 (MCM) 8 (MCM) 8 (MCM) 8 (MCM) 2 (MCM), 1 (por dado)
Núcleos de GPU Por determinar Por determinar 16.384 19.456 19.456 14.080
Velocidad máxima de reloj Por determinar Por determinar 2400 MHz 2100 MHz 2100 MHz 1700 MHz
INT8 Computación Por determinar Por determinar 5200 TOPS 2614 TOPS 2614 TOPS 383 TOP
Matriz FP6/FP4 Por determinar 40 PFLOP 20 PFLOP N / A N / A N / A
Matriz FP8 Por determinar 20 PFLOP 5 PFLOP 2.6 PFLOP 2.6 PFLOP N / A
Matriz FP16 Por determinar 10 PFLOP 2, 5 PFLOP 1.3 PFLOP 1.3 PFLOP 383 TFLOP
Vector FP32 Por determinar Por determinar 157, 3 TFLOP 163, 4 TFLOP 163, 4 TFLOP 95, 7 TFLOP
Vector FP64 Por determinar Por determinar 78, 6 TFLOP 81, 7 TFLOP 81, 7 TFLOP 47, 9 TFLOP
VRAM Por determinar HBM4 de 432 GB HBM3e de 288 GB HBM3e de 256 GB HBM3 de 192 GB 128 GB HBM2e
Caché infinito Por determinar Por determinar 256 MB 256 MB 256 MB N / A
Reloj de memoria Por determinar 19, 6 TB/s 8, 0 Gbps 5, 9 Gbps 5, 2 Gbps 3, 2 Gbps
Bus de memoria Por determinar Por determinar 8192 bits 8192 bits 8192 bits 8192 bits
Ancho de banda de memoria Por determinar Por determinar 8 TB/s 6, 0 TB/s 5, 3 TB/s 3, 2 TB/s
Factor de forma Por determinar Por determinar OAM OAM OAM OAM
Enfriamiento Por determinar Por determinar Pasivo / Líquido Refrigeración pasiva Refrigeración pasiva Refrigeración pasiva
TDP (máx.) Por determinar Por determinar 1400 W (355 X) 1000W 750 W 560 W

Para más detalles, visite la fuente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *