NVIDIA는 AI 총 소유 비용에 대한 재고를 촉구하며, “토큰당 비용”을 핵심 지표로 강조합니다.

인공지능(AI) 산업이 더욱 발전된 단계에 접어들면서, AI 인프라를 평가하는 기존 지표들은 점차 시대에 뒤떨어지게 되었습니다.이에 NVIDIA는 ” 토큰당 비용( Cost Per Token )”이라는 새로운 지표를 도입하여 AI 총소유비용(TCO)을 이해하는 패러다임의 전환을 제안합니다.

NVIDIA, 토큰당 비용으로 AI 총소유비용(TCO)의 개념을 재정립하다

인공지능(AI) 분야에서 토큰은 가장 중요한 지표로 부상했습니다.이전 세대의 데이터 센터가 주로 순수 컴퓨팅 성능에 초점을 맞췄던 것과 달리, 현대의 AI 인프라, 즉 AI 팩토리는 토큰 생산량을 기준으로 평가됩니다.이제 핵심은 단순히 많은 양의 토큰을 생성하는 것이 아니라 효율성과 비용 효율성을 달성하는 데 있습니다.따라서 AI 팩토리의 총소유비용(TCO) 개념을 재고하는 것이 매우 중요합니다.

NVIDIA는 많은 기업들이 여전히 칩 사양이나 연산 비용과 같은 시대에 뒤떨어진 비교 기준에 의존하고 있다고 지적합니다.이러한 기준에 대한 인식 변화가 필수적입니다.

컴퓨팅 비용 : 이는 기업이 클라우드 제공업체로부터 조달하거나 자체적으로 유지 관리하는 AI 인프라에 지출하는 비용을 나타냅니다.
달러당 FLOPS : 이 지표는 기업이 지출하는 1달러당 확보하는 컴퓨팅 파워의 양을 나타내지만, 실제 토큰 생산량을 정확하게 반영하지는 못합니다.
토큰당 비용 : 이 수치는 제공되는 각 토큰을 생산하는 데 드는 비용을 종합적으로 분석한 것으로, 일반적으로 백만 토큰당 비용으로 표시됩니다.

'GPU당 시간당 비용'과 'GPU당 초당 토큰 수'에 '60초 × 60분'과 '100만'을 곱하여 '토큰 백만 개당 비용'을 계산하는 공식을 보여주는 슬라이드입니다.

NVIDIA는 분석에서 토큰당 비용을 낮추는 데 기여할 수 있는 여러 요인을 설명합니다.그들은 백만 토큰당 비용을 계산하는 공식을 제시하며, 많은 AI 기업들이 주로 분자(GPU 시간당 비용)에만 집중하고 전체 비용과 수익에 큰 영향을 미치는 중요한 분모를 간과하고 있다고 지적합니다.

토큰 비용 최소화 : 토큰 생산량을 늘리면 토큰당 비용이 절감되어 처리되는 모든 상호 작용에서 수익 마진이 향상될 수 있습니다.
수익 극대화 : 초당 전달되는 토큰 수가 증가하면 메가와트당 더 많은 토큰을 얻을 수 있으므로 AI 기반 제품 및 서비스의 지능화에 기여하고 기존 인프라 투자에서 수익을 증대시킬 수 있습니다.

왜 이것이 중요할까요? 근본적인 이유는 AI 기업에게 있어 달러당 FLOPS와 같은 단순한 비교보다 토큰당 비용에 집중하는 것이 훨씬 중요하기 때문입니다.

'추론 빙산'이라는 제목의 그래픽은 '달러당 FLOPS' 및 '토큰당 비용'과 같은 용어를 사용하여 칩 사양을 보여주며 컴퓨팅, 메모리 및 소프트웨어 설계를 강조합니다.

NVIDIA는 Hopper GPU와 Blackwell GPU의 성능 및 비용 지표를 비교하여 Hopper GPU의 운영 비용이 약 절반 수준으로 훨씬 저렴하지만, 달러당 FLOPS 성능 또한 비슷한 수준의 두 배 차이를 보인다는 사실을 밝혔습니다.그러나 이것만으로는 Blackwell 아키텍처가 제공하는 상당한 이점을 모두 설명할 수는 없습니다.

토큰 처리량과 백만 토큰당 비용을 고려할 때 진정한 차이가 드러납니다.이 두 영역에서 Blackwell은 Hopper보다 최대 65배 뛰어난 성능을 보이며, 백만 토큰당 비용은 무려 35배나 낮습니다.참고로, 이 정보는 SemiAnalysis의 InferenceX v2 벤치마크를 기반으로 합니다.

미터법	NVIDIA Hopper(HGX H200)	NVIDIA 블랙웰(GB300 NVL72)	NVIDIA Blackwell과 Hopper의 비교
GPU당 시간당 비용($)	1.41달러	2.65달러	2배
달러당 플롭(PFLOPS)	2.8	5.6	2배
GPU당 초당 토큰 수	90	6, 000	65배
초당 토큰 수/MW	54K	280만	50배
백만 토큰당 비용($)	4.20달러	0.12달러	35배 더 낮음

이러한 수치를 NVIDIA의 “CEO식 계산”으로 치부할 수도 있겠지만, 그 의미를 뒷받침하는 상당한 논리가 존재합니다. NVIDIA는 강력한 AI 소프트웨어 솔루션 제품군을 자랑하며 벤치마크 테스트에서 경쟁사들을 크게 앞서며 꾸준히 우수한 성적을 보여주고 있습니다.

엔비디아의 CEO는 다른 회사들에게도 자사 칩을 테스트해 볼 것을 촉구하며, 엔비디아 제품보다 우수한 성능을 입증할 증거를 제시하라고 요구했습니다.

“현재 전 세계 어떤 플랫폼도 성능 대비 총소유비용 비율(TCO) 면에서 InferenceMax보다 우수하다는 것을 증명할 수 없습니다.단 한 회사도요… 저는 그들에게 InferenceMax를 사용해 보고 놀라운 추론 비용을 입증해 보라고 권하고 싶습니다.정말 정말 어렵습니다… 아무도 나서려고 하지 않죠.”

젠슨 황 – 엔비디아 CEO

NVIDIA는 AI 성능을 좌우하는 측정 기준을 재정의함으로써 단순히 벤치마크에서 승리한 것에 그치지 않고, AI 기업에 가장 중요한 측정 기준을 정립하는 데 핵심적인 역할을 하고 있다고 주장합니다.

출처 및 이미지