
En Hot Chips 2025, AMD presentó detalles completos sobre su nuevo acelerador de IA Instinct MI350, impulsado por la innovadora arquitectura CDNA 4. Este anuncio se produce tan solo dos meses después del lanzamiento inicial de la serie MI350, diseñada específicamente para cargas de trabajo de IA exigentes.
AMD presenta las perspectivas arquitectónicas de Instinct MI350 en Hot Chips 2025, posicionado para LLM expansivos

La serie MI350 respondió al crecimiento exponencial de los modelos de lenguaje grande (LLM), lo que impulsó la necesidad de avances tanto en los formatos de datos como en la capacidad de memoria del chip. Al ampliar los límites en estas áreas, AMD mejoró significativamente el rendimiento y la eficiencia del procesamiento de IA.

Las mejoras en la arquitectura CDNA-4 proporcionan aumentos sustanciales en la capacidad y el ancho de banda para la memoria de alto ancho de banda (HBM), lo que facilita un entrenamiento e inferencia de IA más rápidos en modelos más expansivos. Los chips han aumentado notablemente la velocidad de enlace, logrando una mejor eficiencia energética y un mejor rendimiento general.

Esta nueva arquitectura logra un procesamiento más rápido al optimizar el suministro de energía y mejorar la conectividad a través de Infinity Fabric para una mayor eficiencia del ancho de banda durante las operaciones. También admite diversos formatos de datos de menor precisión, como FP8 y los tipos MXFP6 y MXFP4 a microescala, estándar de la industria.
Variantes y especificaciones de la serie MI350
La serie AMD MI350 incluye principalmente el MI350X, un diseño refrigerado por aire con una potencia total de la placa (TBP) de 1000 W y una velocidad de reloj máxima de 2, 2 GHz. En el extremo superior, el modelo MI355X está diseñado para centros de datos refrigerados por líquido, con una TBP de 1400 W y una velocidad de reloj máxima de 2, 4 GHz.

Estas impresionantes especificaciones son fruto de la amplia experiencia en ingeniería de AMD, que incluye un sofisticado diseño de 185 000 millones de transistores en una configuración 3D Multi-Chiplet. Esto incluye memoria HBM3e avanzada y utiliza tecnologías de proceso de 3 nm y 6 nm para optimizar la rentabilidad y el rendimiento.

Desglose arquitectónico y capacidades
Los detalles arquitectónicos revelan un total de ocho matrices de complejo acelerador (XCD) por encapsulado MI350, fabricadas con la tecnología líder de 3 nm de TSMC. Cada chip está conectado mediante una robusta infraestructura diseñada para maximizar el rendimiento.
Cada matriz base de E/S funciona con un proceso de 6 nm más avanzado, lo que garantiza un mayor rendimiento y una mejor relación calidad-precio. La configuración de la matriz facilita la gestión eficaz de la memoria a través de ocho sitios HBM3e, lo que proporciona una considerable capacidad de 288 GB de memoria en todo el acelerador.

Además, el subsistema de memoria admite diversas configuraciones para optimizar la capacidad de cómputo. Esto incluye una arquitectura integral de memoria interna y caché en niveles, diseñada para maximizar el rendimiento durante operaciones con uso intensivo de datos.
Métricas de rendimiento y ventaja competitiva
En términos de potencia de cálculo bruta, la serie MI350 logra ofrecer mejoras considerables en comparación con sus predecesores, mostrando hasta 20 PFLOP de capacidad de cálculo FP4/FP6, una impresionante mejora del rendimiento de cuatro veces gracias a los avances en la tecnología HBM3e y las mejoras de caché asociadas.

AMD ha indicado que la serie Instinct MI350 estará disponible a través de múltiples socios de distribución a partir del tercer trimestre de 2025. También se vislumbran desarrollos futuros, y se anticipa que la serie MI400 se lanzará en 2026.
Comparación de los aceleradores de IA AMD Instinct:
Nombre del acelerador | AMD Instinct MI500 | AMD Instinct MI400 | AMD Instinct MI350X | AMD Instinct MI325X | AMD Instinct MI300X | AMD Instinct MI250X |
---|---|---|---|---|---|---|
Arquitectura de GPU | CDNA Next / UDNA | CDNA Next / UDNA | ADNc 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebarán (CDNA 2) |
Nodo de proceso de GPU | Por determinar | Por determinar | 3 nm | 5 nm + 6 nm | 5 nm + 6 nm | 6 nm |
XCD (Chiplets) | Por determinar | 8 (MCM) | 8 (MCM) | 8 (MCM) | 8 (MCM) | 2 (MCM), 1 (por dado) |
Núcleos de GPU | Por determinar | Por determinar | 16.384 | 19.456 | 19.456 | 14.080 |
Velocidad máxima de reloj | Por determinar | Por determinar | 2400 MHz | 2100 MHz | 2100 MHz | 1700 MHz |
INT8 Computación | Por determinar | Por determinar | 5200 TOPS | 2614 TOPS | 2614 TOPS | 383 TOP |
Matriz FP6/FP4 | Por determinar | 40 PFLOP | 20 PFLOP | N / A | N / A | N / A |
Matriz FP8 | Por determinar | 20 PFLOP | 5 PFLOP | 2.6 PFLOP | 2.6 PFLOP | N / A |
Matriz FP16 | Por determinar | 10 PFLOP | 2, 5 PFLOP | 1.3 PFLOP | 1.3 PFLOP | 383 TFLOP |
Vector FP32 | Por determinar | Por determinar | 157, 3 TFLOP | 163, 4 TFLOP | 163, 4 TFLOP | 95, 7 TFLOP |
Vector FP64 | Por determinar | Por determinar | 78, 6 TFLOP | 81, 7 TFLOP | 81, 7 TFLOP | 47, 9 TFLOP |
VRAM | Por determinar | HBM4 de 432 GB | HBM3e de 288 GB | HBM3e de 256 GB | HBM3 de 192 GB | 128 GB HBM2e |
Caché infinito | Por determinar | Por determinar | 256 MB | 256 MB | 256 MB | N / A |
Reloj de memoria | Por determinar | 19, 6 TB/s | 8, 0 Gbps | 5, 9 Gbps | 5, 2 Gbps | 3, 2 Gbps |
Bus de memoria | Por determinar | Por determinar | 8192 bits | 8192 bits | 8192 bits | 8192 bits |
Ancho de banda de memoria | Por determinar | Por determinar | 8 TB/s | 6, 0 TB/s | 5, 3 TB/s | 3, 2 TB/s |
Factor de forma | Por determinar | Por determinar | OAM | OAM | OAM | OAM |
Enfriamiento | Por determinar | Por determinar | Pasivo / Líquido | Refrigeración pasiva | Refrigeración pasiva | Refrigeración pasiva |
TDP (máx.) | Por determinar | Por determinar | 1400 W (355 X) | 1000W | 750 W | 560 W |
Para más detalles, visite la fuente.
Deja una respuesta