NVIDIA aboga por repensar el costo total de propiedad de la IA, haciendo hincapié en el «costo por token» como métrica clave.

A medida que la industria de la inteligencia artificial (IA) alcanza una etapa más avanzada, las métricas tradicionales para evaluar la infraestructura de IA se han vuelto cada vez más obsoletas. En respuesta, NVIDIA aboga por un cambio de paradigma en la comprensión del costo total de propiedad (TCO) de la IA mediante la introducción de la métrica » Costo por token «.

NVIDIA reinventa el costo total de propiedad de la IA con el modelo de costo por token.

En el contexto de la IA, los tokens se han convertido en la métrica más importante. A diferencia de las generaciones anteriores de centros de datos, que se centraban principalmente en la potencia de cálculo bruta, las infraestructuras de IA contemporáneas —conocidas como fábricas de IA— se evalúan en función de su producción de tokens. El énfasis ahora pasa de simplemente generar un gran volumen de tokens a lograr eficiencia y rentabilidad. Por lo tanto, es crucial replantearse cómo se conceptualiza el costo total de propiedad (TCO) para las fábricas de IA.

NVIDIA destaca que muchas empresas siguen basándose en métricas comparativas obsoletas, como las especificaciones de los chips y los costes computacionales. Es fundamental un cambio de enfoque.

Coste de computación : Representa el gasto que realizan las empresas en infraestructura de IA, ya sea que provenga de proveedores de la nube o que se mantenga en sus propias instalaciones.
FLOPS por dólar : Esta métrica indica la cantidad de potencia computacional que una empresa obtiene por cada dólar gastado; sin embargo, no representa con precisión la producción real de tokens.
Coste por token : Esta cifra proporciona un análisis exhaustivo del coste de producción de cada token entregado, expresado normalmente como coste por millón de tokens.

Una diapositiva que muestra una fórmula para calcular el "Costo por millón de tokens" utilizando el "Costo por GPU por hora" y los "Tokens por GPU por segundo" multiplicados por "60 segundos × 60 minutos" y "1 millón".

En su análisis, NVIDIA explica varios factores que pueden contribuir a reducir el costo por token. Proporcionan una ecuación para calcular el costo por millón de tokens, destacando que muchas empresas de IA se centran principalmente en el numerador (costo por GPU por hora), descuidando el denominador, un factor crucial que influye significativamente en el costo y los ingresos totales.

Minimizar el coste de los tokens : Aumentar la producción de tokens puede reducir los costes por token, lo que a su vez mejora los márgenes de beneficio en cada interacción procesada.
Maximización de los ingresos : Un aumento en la cantidad de tokens entregados por segundo equivale a más tokens por megavatio, lo que contribuye a una mayor inteligencia para los productos y servicios impulsados por IA, con el potencial de aumentar los ingresos provenientes de las inversiones en infraestructura existentes.

¿Por qué es importante? La respuesta fundamental radica en que, para las empresas de IA, centrarse en el coste por token es primordial frente a comparaciones simplistas como los FLOPS por dólar.

Un gráfico titulado "Iceberg de inferencia" muestra las especificaciones de los chips con términos como "FLOPS por dólar" y "Costo por token", destacando el diseño de computación, memoria y software.

NVIDIA compara el rendimiento y el coste de sus GPU Hopper y Blackwell, revelando que, si bien las GPU Hopper son significativamente más económicas de operar (aproximadamente la mitad), la relación FLOPS/dólar es similar, con una diferencia del doble. Sin embargo, esto por sí solo no refleja las importantes ventajas que ofrece la arquitectura Blackwell.

Las diferencias más notables se aprecian al considerar el rendimiento de los tokens y el costo por millón de tokens. En estos aspectos, Blackwell supera a Hopper hasta 65 veces, con un costo por millón de tokens sorprendentemente 35 veces menor. Para mayor referencia, esta información se basa en el benchmark InferenceX v2 de SemiAnalysis.

Métrico	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell en relación con Hopper
Coste por GPU por hora ($)	$1.41	$2.65	2x
FLOP por dólar (PFLOPS)	2.8	5.6	2x
Tokens por segundo por GPU	90	6.000	65x
Tokens por segundo por MW	54K	2, 8 millones	50x
Costo por millón de tokens ($)	$4.20	$0.12	35 veces menor

Aunque algunos podrían descartar estas cifras como meras estrategias de marketing de NVIDIA, existe una lógica subyacente que justifica su importancia. NVIDIA cuenta con un sólido conjunto de soluciones de software de IA y destaca constantemente en las pruebas de rendimiento, dejando muy atrás a sus competidores.

El director ejecutivo de NVIDIA también ha instado a otras compañías a poner a prueba sus chips, desafiándolas a proporcionar pruebas de un rendimiento superior en comparación con las ofertas de NVIDIA.

“Nadie puede demostrarme que alguna plataforma en el mundo actual tenga una mejor relación TCO de rendimiento. Ni una sola empresa… Les animo a que utilicen Inference Max y demuestren su increíble coste de inferencia. Es realmente muy difícil… nadie quiere presentarse.”

Jensen Huang – Director ejecutivo de NVIDIA

Al redefinir las métricas que impulsan el rendimiento de la IA, NVIDIA no solo está afirmando una victoria en las pruebas de referencia, sino que también está reclamando un papel fundamental en el establecimiento de las métricas que más importan a las empresas de IA.

Fuente e imágenes

NVIDIA aboga por repensar el costo total de propiedad de la IA, haciendo hincapié en el «costo por token» como métrica clave.

NVIDIA reinventa el costo total de propiedad de la IA con el modelo de costo por token.

Artículos relacionados:

Apple se prepara para utilizar 2,4 exabytes de memoria LPDDR5 en 2023 en medio del aumento vertiginoso de los precios de la DRAM.

Microsoft Edge reintroduce la función de pestañas verticales tras su adopción por parte de Google Chrome.

Deja una respuesta Cancelar la respuesta