NVIDIA rompe la barrera de los 1000 TPS con las GPU Blackwell y Llama 4 Maverick de Meta para lograr velocidades de token récord

NVIDIA ha logrado un avance significativo en el rendimiento de la inteligencia artificial (IA) con la introducción de su arquitectura Blackwell. Esta innovación se atribuye en gran medida a una serie de optimizaciones estratégicas y capacidades de hardware mejoradas.

Avances en Blackwell: Mejora del rendimiento de la IA para modelos lingüísticos a gran escala

Al expandir continuamente los límites de la IA, NVIDIA ha logrado avances notables con su tecnología Blackwell. En una publicación reciente de su blog, la compañía anunció el impresionante hito de 1000 tokens por segundo (TP/S) utilizando un solo nodo DGX B200 equipado con ocho GPU NVIDIA Blackwell. Este logro se logró trabajando con el importante modelo Llama 4 Maverick de Meta, con 400 mil millones de parámetros, lo que demuestra el profundo impacto del ecosistema de IA de NVIDIA en la industria.

Con esta configuración avanzada, los servidores Blackwell de NVIDIA pueden alcanzar la asombrosa cifra de 72 000 TP/s. Como destacó el director ejecutivo Jensen Huang durante su presentación en Computex, las organizaciones están ahora más motivadas que nunca para mostrar sus avances en IA, especialmente en términos de tasas de salida de tokens. Esta tendencia demuestra el firme compromiso de NVIDIA con la mejora de este aspecto específico del desarrollo de la IA.

Lograr una velocidad tan revolucionaria implica importantes optimizaciones de software, en particular mediante TensorRT-LLM y un innovador modelo de decodificación especulativa, lo que resulta en una aceleración cuatro veces mayor del rendimiento. El equipo de NVIDIA profundiza en diversos elementos que contribuyeron al perfeccionamiento de Blackwell para modelos de lenguaje extensos (LLM).Una innovación fundamental es el uso de la decodificación especulativa, un método que emplea un modelo ágil de «borrador» para pronosticar varios tokens con antelación, mientras que el modelo principal (más grande) valida simultáneamente estas predicciones.

La decodificación especulativa es una técnica popular que acelera la velocidad de inferencia de los LLM sin comprometer la calidad del texto generado. Esto se logra mediante un modelo de borrador más pequeño y rápido que predice una secuencia de tokens especulativos, que luego son verificados en paralelo por el LLM objetivo más grande.

La aceleración se obtiene al generar potencialmente múltiples tokens en una iteración del modelo de destino, a costa de una sobrecarga adicional del borrador del modelo.

– NVIDIA

Además, NVIDIA ha implementado la arquitectura basada en EAGLE3, un marco de trabajo centrado en software y diseñado específicamente para optimizar los procesos de inferencia de modelos de lenguaje extensos, en lugar de depender exclusivamente de los avances en hardware de la GPU. Con estos avances, NVIDIA no solo consolida su liderazgo en el ámbito de la IA, sino que también posiciona a Blackwell como una solución optimizada para importantes LLM como Llama 4 Maverick. Este hito representa un paso fundamental para facilitar interacciones de IA más rápidas y fluidas en el futuro.

Fuente e imágenes