GPU NVIDIA Blackwell Ultra “GB300”: Presentamos el chip de IA más rápido con doble retícula, más de 20 000 núcleos, 288 GB de memoria HBM3e a 8 TB/s, un 50 % más rápido que el GB200.

NVIDIA ha presentado su chip de inteligencia artificial de última generación, el Blackwell Ultra GB300, que cuenta con una notable mejora del rendimiento del 50 % respecto de su predecesor, el GB200, y una impresionante memoria de 288 GB.

Presentamos Blackwell Ultra “GB300” de NVIDIA: un chip de IA revolucionario

Recientemente, NVIDIA publicó un artículo detallado que describe las especificaciones y capacidades del Blackwell Ultra GB300. Este chip de vanguardia ya se encuentra en producción en masa y se suministra a clientes selectos. El Blackwell Ultra representa una mejora significativa en rendimiento y características en comparación con los modelos Blackwell anteriores.

Estableciendo paralelismos con la serie Super de NVIDIA, que mejoró las tarjetas de juego RTX originales, la serie Ultra mejora las ofertas anteriores de chips de IA. Si bien líneas anteriores como Hopper y Volta carecían de funciones Ultra, sus avances sentaron las bases para las innovaciones actuales. Además, también hay mejoras sustanciales disponibles para los modelos que no son Ultra mediante actualizaciones de software y optimizaciones.

Diagrama de la GPU NVIDIA Blackwell Ultra que muestra la arquitectura detallada y las especificaciones de conectividad.

El Blackwell Ultra GB300 es una versión avanzada que combina dos matrices del tamaño de una retícula conectadas mediante la interfaz NV-HBI de alto ancho de banda de NVIDIA, funcionando como una GPU unificada. Basado en la tecnología de proceso 4NP de TSMC (una versión optimizada de su nodo de 5 nm), el chip alberga la impresionante cantidad de 208 000 millones de transistores y ofrece un rendimiento extraordinario con un ancho de banda de 10 TB/s entre las dos matrices.

Diagrama de la arquitectura del multiprocesador NVIDIA Streaming con CUDA y núcleos tensoriales.

La GPU está equipada con 160 multiprocesadores de streaming (SM), con un total de 128 núcleos CUDA cada uno. Incluye cuatro núcleos Tensor de 5.ª generación, compatibles con computación de precisión FP8, FP6 y NVFP4. Este diseño da como resultado un total combinado de 20 480 núcleos CUDA y 640 núcleos Tensor, junto con 40 MB de memoria Tensor (TMEM).

Característica	Tolva	Blackwell	Blackwell Ultra
Proceso de fabricación	TSMC 4N	TSMC 4NP	TSMC 4NP
Transistores	80B	208B	208B
Matrices por GPU	1	2	2
Rendimiento denso y escaso de NVFP4	–	10 \| 20 petaFLOPS	15 \| 20 petaFLOPS
Rendimiento denso y escaso en FP8	2 \| 4 petaFLOPS	5 \| 10 petaFLOPS	5 \| 10 petaFLOPS
Aceleración de la atención (SFU EX2)	4, 5 teraexponenciales/s	5 TeraExponenciales/s	10, 7 teraexponenciales/s
Capacidad máxima de HBM	80 GB HBM (H100) 141 GB HBM3E (H200)	192 GB HBM3E	HBM3E de 288 GB
Ancho de banda máximo de HBM	3, 35 TB/s (H100) 4, 8 TB/s (H200)	8 TB/s	8 TB/s
Ancho de banda de NVLink	900 GB/s	1.800 GB/s	1.800 GB/s
Potencia máxima (TGP)	Hasta 700W	Hasta 1.200 W	Hasta 1.400 W

Las innovaciones en los núcleos Tensor de 5.ª generación son fundamentales para la computación de IA. NVIDIA ha mejorado constantemente estos núcleos, lo que ha dado como resultado:

NVIDIA Volta: se introdujeron unidades MMA de 8 subprocesos y compatibilidad con cálculos FP16.
NVIDIA Ampere: mejorado con MMA de ancho de deformación completo, BF16 y TensorFloat-32.
NVIDIA Hopper: se introdujo el grupo Warp MMA en 128 subprocesos y Transformer Engine con soporte FP8.
NVIDIA Blackwell: motor Transformer de segunda generación destacado con capacidades de cómputo FP8 y FP6 mejoradas.

Comparación de memoria GPU: Hopper H100 80GB, Hopper H200 141GB, Blackwell 192GB, Blackwell Ultra 288GB.

El chip Blackwell Ultra mejora significativamente la capacidad de memoria, pasando de un máximo de 192 GB en los modelos Blackwell GB200 a unos impresionantes 288 GB de HBM3e. Este avance permite la compatibilidad con modelos de IA masivos de varios billones de parámetros. Su arquitectura de memoria consta de ocho pilas con un controlador de 512 bits que opera a 8 TB/s, lo que permite:

Alojamiento completo del modelo: capacidad de manejar más de 300 mil millones de modelos de parámetros sin descargar memoria.
Longitudes de contexto extendidas: capacidad de caché KV mejorada para aplicaciones de transformadores.
Eficiencia computacional mejorada: relaciones computacional-memoria elevadas para diversas cargas de trabajo.

Gráfico de barras que compara los niveles de rendimiento de las GPU Dense FP8 y NVFP4.

La arquitectura Blackwell presenta interconexiones robustas que incluyen NVLINK, NVLINK-C2C y una interfaz PCIe Gen6 x16, y ofrece las siguientes especificaciones:

Ancho de banda por GPU: 1, 8 TB/s bidireccional (18 enlaces x 100 GB/s).
Mejora del rendimiento: aumenta 2x respecto de NVLink 4 (en comparación con Hopper).
Topología máxima: admite hasta 576 GPU en una estructura de cómputo sin bloqueo.
Integración a escala de rack: permite configuraciones de 72 GPU con un ancho de banda agregado de 130 TB/s.

Interfaz PCIe: Gen6 con 16 carriles que proporciona un rendimiento bidireccional de 256 GB/s.
NVLink-C2C: facilita la comunicación entre CPU y GPU con coherencia de memoria a 900 GB/s.

Interconexión	GPU Hopper	GPU Blackwell	GPU Blackwell Ultra
NVLink (GPU-GPU)	900	1.800	1.800
NVLink-C2C (CPU-GPU)	900	900	900
Interfaz PCIe	128 (Génesis 5)	256 (Génesis 6)	256 (Génesis 6)

El Blackwell Ultra GB300 de NVIDIA logra un notable aumento del 50 % en la producción de computación densa de baja precisión gracias a la adopción del nuevo estándar NVFP4, ofreciendo una precisión cercana a FP8 con discrepancias mínimas (menos del 1 %).Este avance también reduce los requisitos de memoria hasta 1, 8 veces en comparación con FP8 y 3, 5 veces en comparación con FP16.

Diagrama del mecanismo de atención de caché Blackwell KV con indicadores de aceleración, Softmax y MatMul por lotes.

Blackwell Ultra también integra una sofisticada gestión de programación junto con funciones de seguridad de nivel empresarial, que incluyen:

Motor GigaThread mejorado: un programador avanzado que optimiza la distribución de la carga de trabajo, mejorando el rendimiento del cambio de contexto en los 160 SM.
GPU de múltiples instancias (MIG): capacidad de particionar las GPU en varias instancias MIG, lo que permite asignaciones de memoria personalizadas para una tenencia múltiple segura.
Computación confidencial: disposiciones para el manejo seguro de modelos de IA sensibles, aprovechando el entorno de ejecución confiable (TEE) basado en hardware y operaciones seguras de NVLink sin una pérdida significativa de rendimiento.
Servicio avanzado de certificación remota de NVIDIA (RAS): un sistema de monitoreo impulsado por IA que mejora la confiabilidad al predecir fallas y optimizar el mantenimiento.

La eficiencia del rendimiento mejora significativamente con el Blackwell Ultra GB300, proporcionando un TPS/MW superior en comparación con el GB200, como se ilustra en los gráficos siguientes:

Gráfico del impacto de la arquitectura en el rendimiento de la inferencia y simulación de la experiencia del usuario en la frontera de Pareto.

Gráfico sobre el impacto de la arquitectura de IA en el rendimiento de la inferencia y la experiencia del usuario en Pareto Frontier.

En resumen, NVIDIA sigue liderando la tecnología de IA, como lo demuestran las arquitecturas Blackwell y Blackwell Ultra. Su compromiso con la mejora del soporte y las optimizaciones de software garantiza una sólida ventaja competitiva, respaldada por la investigación y el desarrollo continuos que prometen mantenerlos a la vanguardia de la industria durante los próximos años.

Fuente e imágenes