
NVIDIA ha presentado su chip de inteligencia artificial de última generación, el Blackwell Ultra GB300, que cuenta con una notable mejora del rendimiento del 50 % respecto de su predecesor, el GB200, y una impresionante memoria de 288 GB.
Presentamos Blackwell Ultra “GB300” de NVIDIA: un chip de IA revolucionario
Recientemente, NVIDIA publicó un artículo detallado que describe las especificaciones y capacidades del Blackwell Ultra GB300. Este chip de vanguardia ya se encuentra en producción en masa y se suministra a clientes selectos. El Blackwell Ultra representa una mejora significativa en rendimiento y características en comparación con los modelos Blackwell anteriores.

Estableciendo paralelismos con la serie Super de NVIDIA, que mejoró las tarjetas de juego RTX originales, la serie Ultra mejora las ofertas anteriores de chips de IA. Si bien líneas anteriores como Hopper y Volta carecían de funciones Ultra, sus avances sentaron las bases para las innovaciones actuales. Además, también hay mejoras sustanciales disponibles para los modelos que no son Ultra mediante actualizaciones de software y optimizaciones.

El Blackwell Ultra GB300 es una versión avanzada que combina dos matrices del tamaño de una retícula conectadas mediante la interfaz NV-HBI de alto ancho de banda de NVIDIA, funcionando como una GPU unificada. Basado en la tecnología de proceso 4NP de TSMC (una versión optimizada de su nodo de 5 nm), el chip alberga la impresionante cantidad de 208 000 millones de transistores y ofrece un rendimiento extraordinario con un ancho de banda de 10 TB/s entre las dos matrices.

La GPU está equipada con 160 multiprocesadores de streaming (SM), con un total de 128 núcleos CUDA cada uno. Incluye cuatro núcleos Tensor de 5.ª generación, compatibles con computación de precisión FP8, FP6 y NVFP4. Este diseño da como resultado un total combinado de 20 480 núcleos CUDA y 640 núcleos Tensor, junto con 40 MB de memoria Tensor (TMEM).
Característica | Tolva | Blackwell | Blackwell Ultra |
---|---|---|---|
Proceso de fabricación | TSMC 4N | TSMC 4NP | TSMC 4NP |
Transistores | 80B | 208B | 208B |
Matrices por GPU | 1 | 2 | 2 |
Rendimiento denso y escaso de NVFP4 | – | 10 | 20 petaFLOPS | 15 | 20 petaFLOPS |
Rendimiento denso y escaso en FP8 | 2 | 4 petaFLOPS | 5 | 10 petaFLOPS | 5 | 10 petaFLOPS |
Aceleración de la atención (SFU EX2) | 4, 5 teraexponenciales/s | 5 TeraExponenciales/s | 10, 7 teraexponenciales/s |
Capacidad máxima de HBM | 80 GB HBM (H100) 141 GB HBM3E (H200) | 192 GB HBM3E | HBM3E de 288 GB |
Ancho de banda máximo de HBM | 3, 35 TB/s (H100) 4, 8 TB/s (H200) | 8 TB/s | 8 TB/s |
Ancho de banda de NVLink | 900 GB/s | 1.800 GB/s | 1.800 GB/s |
Potencia máxima (TGP) | Hasta 700W | Hasta 1.200 W | Hasta 1.400 W |
Las innovaciones en los núcleos Tensor de 5.ª generación son fundamentales para la computación de IA. NVIDIA ha mejorado constantemente estos núcleos, lo que ha dado como resultado:
- NVIDIA Volta: se introdujeron unidades MMA de 8 subprocesos y compatibilidad con cálculos FP16.
- NVIDIA Ampere: mejorado con MMA de ancho de deformación completo, BF16 y TensorFloat-32.
- NVIDIA Hopper: se introdujo el grupo Warp MMA en 128 subprocesos y Transformer Engine con soporte FP8.
- NVIDIA Blackwell: motor Transformer de segunda generación destacado con capacidades de cómputo FP8 y FP6 mejoradas.

El chip Blackwell Ultra mejora significativamente la capacidad de memoria, pasando de un máximo de 192 GB en los modelos Blackwell GB200 a unos impresionantes 288 GB de HBM3e. Este avance permite la compatibilidad con modelos de IA masivos de varios billones de parámetros. Su arquitectura de memoria consta de ocho pilas con un controlador de 512 bits que opera a 8 TB/s, lo que permite:
- Alojamiento completo del modelo: capacidad de manejar más de 300 mil millones de modelos de parámetros sin descargar memoria.
- Longitudes de contexto extendidas: capacidad de caché KV mejorada para aplicaciones de transformadores.
- Eficiencia computacional mejorada: relaciones computacional-memoria elevadas para diversas cargas de trabajo.

La arquitectura Blackwell presenta interconexiones robustas que incluyen NVLINK, NVLINK-C2C y una interfaz PCIe Gen6 x16, y ofrece las siguientes especificaciones:
- Ancho de banda por GPU: 1, 8 TB/s bidireccional (18 enlaces x 100 GB/s).
- Mejora del rendimiento: aumenta 2x respecto de NVLink 4 (en comparación con Hopper).
- Topología máxima: admite hasta 576 GPU en una estructura de cómputo sin bloqueo.
- Integración a escala de rack: permite configuraciones de 72 GPU con un ancho de banda agregado de 130 TB/s.
- Interfaz PCIe: Gen6 con 16 carriles que proporciona un rendimiento bidireccional de 256 GB/s.
- NVLink-C2C: facilita la comunicación entre CPU y GPU con coherencia de memoria a 900 GB/s.
Interconexión | GPU Hopper | GPU Blackwell | GPU Blackwell Ultra |
---|---|---|---|
NVLink (GPU-GPU) | 900 | 1.800 | 1.800 |
NVLink-C2C (CPU-GPU) | 900 | 900 | 900 |
Interfaz PCIe | 128 (Génesis 5) | 256 (Génesis 6) | 256 (Génesis 6) |
El Blackwell Ultra GB300 de NVIDIA logra un notable aumento del 50 % en la producción de computación densa de baja precisión gracias a la adopción del nuevo estándar NVFP4, ofreciendo una precisión cercana a FP8 con discrepancias mínimas (menos del 1 %).Este avance también reduce los requisitos de memoria hasta 1, 8 veces en comparación con FP8 y 3, 5 veces en comparación con FP16.

Blackwell Ultra también integra una sofisticada gestión de programación junto con funciones de seguridad de nivel empresarial, que incluyen:
- Motor GigaThread mejorado: un programador avanzado que optimiza la distribución de la carga de trabajo, mejorando el rendimiento del cambio de contexto en los 160 SM.
- GPU de múltiples instancias (MIG): capacidad de particionar las GPU en varias instancias MIG, lo que permite asignaciones de memoria personalizadas para una tenencia múltiple segura.
- Computación confidencial: disposiciones para el manejo seguro de modelos de IA sensibles, aprovechando el entorno de ejecución confiable (TEE) basado en hardware y operaciones seguras de NVLink sin una pérdida significativa de rendimiento.
- Servicio avanzado de certificación remota de NVIDIA (RAS): un sistema de monitoreo impulsado por IA que mejora la confiabilidad al predecir fallas y optimizar el mantenimiento.
La eficiencia del rendimiento mejora significativamente con el Blackwell Ultra GB300, proporcionando un TPS/MW superior en comparación con el GB200, como se ilustra en los gráficos siguientes:




En resumen, NVIDIA sigue liderando la tecnología de IA, como lo demuestran las arquitecturas Blackwell y Blackwell Ultra. Su compromiso con la mejora del soporte y las optimizaciones de software garantiza una sólida ventaja competitiva, respaldada por la investigación y el desarrollo continuos que prometen mantenerlos a la vanguardia de la industria durante los próximos años.
Deja una respuesta