AI 칩 대결: NVIDIA, AMD나 Intel뿐 아니라 Google TPU와의 치열한 경쟁 직면

빠르게 진화하는 인공지능 분야에서 엔비디아는 전례 없는 도전에 직면해 있습니다.주된 경쟁자는 AMD나 인텔이 아니라, 격차를 크게 좁히고 있는 신흥 경쟁자인 구글입니다.엔비디아의 CEO 젠슨 황은 이러한 경쟁 구도를 잘 알고 있습니다.

언뜻 보기에 구글이 AI 하드웨어 경쟁의 선두에 있다는 것이 놀랍게 보일 수 있지만, 이 거대 기술 기업은 2016년 경쟁사들을 크게 앞지르며 최초의 맞춤형 AI 칩인 TPU(텐서 처리 장치)를 출시하며 기반을 마련했습니다.최근 구글은 최신 기술인 ‘7세대’ 아이언우드 TPU를 공개했는데, 이는 상당한 관심을 불러일으켰고 엔비디아와 구글 간의 치열한 경쟁 구도를 형성했습니다.이 글에서는 이 대결이 왜 중요한지, 특히 구글의 아이언우드 TPU가 가져온 발전에 초점을 맞춰 살펴보겠습니다.

Google의 Ironwood TPU: 192GB HBM 및 주요 성능 향상

구글의 아이언우드 TPU는 다양한 워크로드에 배포될 준비를 하고 있으며, 곧 출시될 예정입니다.’추론 중심’ 칩으로 홍보되는 구글은 아이언우드가 추론 성능의 새로운 시대를 예고하고 범용 컴퓨팅의 효율성을 향상시킨다고 주장합니다. TPU v7(아이언우드)은 모델 학습에서 추론으로의 전환 과정에서 탁월한 성능을 발휘하도록 전략적으로 설계되었으며, 이는 현재 기술 환경을 주도할 것으로 예상됩니다.주목할 만한 몇 가지 사양은 다음과 같습니다.

TPU v5p보다 최대 성능이 10배 향상되었습니다.
TPU v6e(Trillium)에 비해 훈련과 추론 모두에서 칩당 성능이 4배 더 뛰어납니다.
지금까지 구글이 개발한 가장 강력하고 에너지 효율적인 맞춤형 실리콘입니다.

사양을 더 자세히 살펴보면, Ironwood 칩은 192GB의 7.4TB/s HBM 메모리를 자랑하며, 칩당 무려 4, 614 TFLOPs의 최고 성능을 구현할 수 있습니다.이는 TPU v4 대비 거의 16배 향상된 수치입니다.또한, 9, 216개의 칩으로 구성된 Ironwood TPU Superpod를 출시함으로써 Google은 총 FP8 컴퓨팅 워크로드에서 42.5 exaFLOPS라는 놀라운 성능을 제공할 수 있습니다.이러한 통합은 확장성 측면에서 NVIDIA의 NVLink를 능가하는 Google의 혁신적인 상호 연결 솔루션을 강조합니다.

여러 개의 색깔 케이블로 복잡하게 연결된 서버 랙이 줄지어 늘어선 큰 방. — 구글의 아이언우드 슈퍼포드

상호 연결성에 중점을 두고, 구글은 확장성을 위해 설계된 강력한 네트워크인 InterChip Interconnect(ICI)를 채택했습니다.이 기술은 1.8페타바이트(PB) 규모의 네트워크를 통해 43개의 블록(각 블록당 64개의 칩 포함)을 연결할 수 있도록 합니다.내부 통신에는 NIC를, TPU에는 3D Torus 레이아웃을 활용하여 상호 연결성을 최적화하고 확장성과 칩 밀도를 효과적으로 향상시킵니다.이는 구글이 엔비디아의 솔루션을 능가하는 부분입니다.

사양	값
칩당 최대 컴퓨팅(FP8)	~ 4, 614테라플롭스
칩당 HBM 용량	192GB HBM3e
칩당 메모리 대역폭	~ 7.2TB/초
최대 포드 크기(칩 수)	9, 216개의 칩
포드당 최대 컴퓨팅	~ 42.5 엑사플롭스
포드당 시스템 메모리(HBM)	~ 1.77 PB
칩 간 상호 연결(ICI) 대역폭	링크당 ~ 1.2 Tb/s
성과 개선	~ TPU v4보다 16배

구글의 ASIC 포부: 엔비디아의 AI 우위에 대한 실제 위협인가?

오늘날의 추론 시대에 Ironwood TPU의 중요성을 면밀히 살펴보면, 추론 기능의 중요성이 점점 커지고 있음을 인지하는 것이 중요합니다.전통적으로 AI 분야는 모델 학습이 주도해 왔으며, NVIDIA의 컴퓨팅 솔루션은 학습 시나리오에서 탁월한 성능을 발휘하여 널리 사용되었습니다.그러나 주류 모델이 보편화됨에 따라 추론 작업의 양이 급격히 증가하여 학습 요구량을 초과하는 경우가 빈번해졌습니다.

추론 성능은 단순한 TFLOPS(초당 1000번 연산) 이상의 요소에 의해 결정됩니다.지연 시간, 처리량, 효율성, 쿼리당 비용과 같은 요소들이 점점 더 중요해지고 있습니다. Google의 Ironwood 제품군을 살펴보면 이 분야에서 NVIDIA를 능가할 수 있는 이유가 명확해집니다.예를 들어, Ironwood는 NVIDIA의 Blackwell B200 AI GPU와 유사한 상당한 온패키지 메모리를 탑재하고 있습니다.그럼에도 불구하고, SuperPod의 9, 216개 칩 클러스터링 기능은 전체 메모리 용량을 크게 확장합니다.

액체 냉각을 위한 금속 냉각 블록, 방열판, 연결된 파이프를 보여주는 서버 마더보드의 클로즈업입니다. — 액체 냉각 장치에 연결된 3개의 Ironwood TPU를 보여주는 Ironwood 보드입니다.

추론 시나리오에서 더 높은 메모리 용량은 매우 중요합니다.칩 간 통신 지연을 최소화하고 대규모 모델에서 지연 시간 성능을 향상시켜 Ironwood의 매력을 더욱 강화하기 때문입니다. Google은 Ironwood를 저지연 환경에 맞춰 세심하게 설계하고 전력 효율을 향상시켰는데, 이는 Ironwood의 예상 성공에 중요한 요소입니다.

하이퍼스케일 추론에는 쿼리 요청을 지속적으로 효율적으로 처리할 수 있는 수천 개의 칩이 필요하므로, 클라우드 서비스 제공업체(CSP)는 기본 성능보다 배포 및 운영 비용을 우선시합니다.이를 위해 구글은 Ironwood를 통해 전력 효율을 두 배 향상시켜 광범위한 추론 애플리케이션에 TPU를 경제적으로 활용할 수 있도록 했습니다.

대규모 컨텍스트를 위한 NVIDIA Rubin CPX GPU는 128GB GDDR7 메모리와 같은 특징을 갖추고 있으며 2026년 말에 출시될 예정입니다. — 이미지: NVIDIA Corporation

AI 경쟁의 패러다임은 단순히 최고 FLOPS 달성에서 쿼리 처리 능력, 지연 시간 단축, 운영 비용, 에너지 효율을 아우르는 더욱 미묘한 경쟁으로 전환되고 있습니다.이러한 변화는 구글이 AI 분야에서 오랫동안 지배해 온 엔비디아의 잠재적 약점을 활용하여 초기에 발판을 마련할 수 있는 새로운 기회를 제공합니다.특히, 아이언우드는 구글 클라우드를 통해서만 독점적으로 제공될 예정이며, 이는 생태계 종속을 촉진하고 엔비디아의 기존 입지를 위협할 수 있습니다.구글 TPU의 지속적인 발전은 경쟁적 본질을 강조하며, 엔비디아의 전략적 계획에 반영될 변화를 예고합니다.

그럼에도 불구하고 엔비디아는 이 새로운 도전에 수동적으로 대처하지 않고 루빈 CPX를 출시하여 최적화된 랙 스케일 솔루션으로 상당한 틈새시장을 개척하고자 합니다.그러나 구글이 엔비디아의 강력한 경쟁자로 자리매김하고 있는 반면, 인텔과 AMD는 현재 영향력과 혁신 면에서 뒤처져 있다는 점이 점점 더 분명해지고 있습니다.

주목할 만한 논평에서 젠슨 황은 과거 인터뷰에서 Google의 TPU 역량을 돌아보며 해당 제품의 복잡성과 경쟁력을 인정했습니다.

그 시점까지… 가장 큰 핵심 논쟁 중 하나는… GPU 대 ASIC, 구글의 TPU, 아마존의 Trainium에 대한 논쟁입니다.구글은… 모든 것이 시작되기 전에 TPU1을 개발했습니다.… ASIC을 개발하는 사람들에게는 어려운 과제입니다.

TPU는 TPU 7에 있습니다.네, 맞아요.그리고 그들에게도 어려운 일이죠.맞아요.그래서 그들이 하는 일은 엄청나게 힘듭니다.

출처 및 이미지