NVIDIA defende a reformulação do custo total de propriedade da IA, enfatizando o “custo por token” como a principal métrica.

À medida que a indústria de inteligência artificial (IA) atinge um estágio mais avançado, as métricas tradicionais para avaliar a infraestrutura de IA tornam-se cada vez mais obsoletas. Em resposta, a NVIDIA defende uma mudança de paradigma na compreensão do Custo Total de Propriedade (TCO) da IA, introduzindo a métrica ” Custo por Token “.

NVIDIA reinventa o Custo Total de Propriedade (TCO) da IA com o modelo de Custo por Token.

No contexto da IA, os tokens emergiram como a métrica mais crítica. Ao contrário das gerações anteriores de data centers, que se concentravam principalmente na capacidade computacional bruta, as infraestruturas de IA contemporâneas — denominadas fábricas de IA — são avaliadas com base na sua produção de tokens. A ênfase agora se desloca da simples geração de um alto volume de tokens para a obtenção de eficiência e custo-benefício. Portanto, é crucial repensar a forma como o Custo Total de Propriedade (TCO) é concebido para as fábricas de IA.

A NVIDIA destaca que muitas empresas continuam a depender de métricas comparativas desatualizadas, como especificações de chips e custos computacionais. Uma mudança de foco é essencial.

Custo computacional : Este valor representa o gasto incorrido pelas empresas com infraestrutura de IA, seja ela proveniente de provedores de nuvem ou mantida localmente.
FLOPS por dólar : Essa métrica indica a quantidade de poder computacional que uma empresa obtém para cada dólar gasto; no entanto, ela não representa com precisão a produção real de tokens.
Custo por token : Este valor fornece uma análise completa dos custos de produção de cada token entregue, geralmente expressos como custo por milhão de tokens.

Um slide mostrando uma fórmula para calcular o 'Custo por Milhão de Tokens' usando o 'Custo por GPU por Hora' e o 'Tokens por GPU por Segundo' multiplicados por '60 segundos × 60 minutos' e '1 milhão'.

Em sua análise, a NVIDIA explica diversos fatores que podem contribuir para a redução do custo por token. Eles fornecem uma equação para calcular o custo por milhão de tokens, destacando que muitas empresas de IA se concentram principalmente no numerador — Custo por GPU por Hora — negligenciando o denominador, que é crucial e influencia significativamente o custo e a receita totais.

Minimizar o custo do token : Aumentar a produção de tokens pode levar à redução dos custos por token, aumentando, consequentemente, as margens de lucro em cada interação processada.
Maximizando a receita : Um aumento no número de tokens entregues por segundo equivale a mais tokens por megawatt, contribuindo assim para uma maior inteligência de produtos e serviços baseados em IA — com o potencial de impulsionar a receita de investimentos em infraestrutura já existentes.

Por que isso é importante? A resposta fundamental reside no fato de que, para empresas de IA, focar no custo por token é primordial em relação a comparações simplistas como FLOPS por dólar.

Um gráfico intitulado "Iceberg da Inferência" mostra as especificações dos chips com termos como "FLOPS por dólar" e "Custo por token", destacando o design de computação, memória e software.

A NVIDIA compara as métricas de desempenho e custo entre suas GPUs Hopper e Blackwell, revelando que, embora as GPUs Hopper sejam significativamente mais baratas de operar — aproximadamente duas vezes mais baratas —, a relação FLOPS por dólar indica uma diferença semelhante de duas vezes. No entanto, isso por si só não demonstra as vantagens substanciais oferecidas pela arquitetura Blackwell.

As verdadeiras diferenças surgem ao considerarmos a taxa de transferência de tokens e o custo por milhão de tokens. Nessas áreas, o Blackwell supera o Hopper em até 65 vezes, com um custo por milhão de tokens impressionantes 35 vezes menor. Para referência adicional, essas informações são baseadas no benchmark InferenceX v2 da SemiAnalysis.

Métrica	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell em relação ao Hopper
Custo por GPU por hora ($)	$ 1, 41	$ 2, 65	2x
FLOP por dólar (PFLOPS)	2.8	5.6	2x
Tokens por segundo por GPU	90	6.000	65x
Tokens por segundo por MW	54 mil	2, 8 milhões	50x
Custo por milhão de tokens ($)	$ 4, 20	$ 0, 12	35 vezes menor

Embora alguns possam descartar esses números como meras “matemática de CEO” da NVIDIA, existe uma lógica subjacente substancial que valida sua importância. A NVIDIA possui um conjunto robusto de soluções de software de IA e se destaca consistentemente em testes de benchmark, deixando os concorrentes muito para trás.

O CEO da NVIDIA também incentivou outras empresas a testarem seus chips, desafiando-as a fornecerem evidências de desempenho superior em comparação com os produtos da NVIDIA.

“Ninguém consegue me demonstrar que alguma plataforma no mundo hoje tenha uma relação custo total de propriedade (TCO) melhor em termos de desempenho. Nenhuma empresa… Eu os encorajo a usar o InferenceMax e demonstrar seu incrível custo de inferência.É realmente muito difícil… ninguém quer se arriscar.”

Jensen Huang – CEO da NVIDIA

Ao redefinir as métricas que impulsionam o desempenho da IA, a NVIDIA não está apenas reivindicando uma vitória em benchmarks; ela está assumindo um papel fundamental no estabelecimento das métricas mais importantes para as empresas de IA.

Fonte e imagens

NVIDIA defende a reformulação do custo total de propriedade da IA, enfatizando o “custo por token” como a principal métrica.

NVIDIA reinventa o Custo Total de Propriedade (TCO) da IA com o modelo de Custo por Token.

A Apple se prepara para utilizar 2,4 exabytes de memória LPDDR5 em 2023 em meio ao aumento dos preços da DRAM.

O Microsoft Edge reintroduz o recurso de guias verticais após a adoção pelo Google Chrome.

NVIDIA reinventa o Custo Total de Propriedade (TCO) da IA ​​com o modelo de Custo por Token.

A Apple se prepara para utilizar 2,4 exabytes de memória LPDDR5 em 2023 em meio ao aumento dos preços da DRAM.

O Microsoft Edge reintroduz o recurso de guias verticais após a adoção pelo Google Chrome.

NVIDIA reinventa o Custo Total de Propriedade (TCO) da IA com o modelo de Custo por Token.