구글, 8세대 TPU, NVIDIA Rubin, Axion CPU를 통합한 최첨단 AI 하이퍼컴퓨터로 에이전트형 AI 시대 진입

구글은 클라우드 넥스트 26 행사에서 TPUv8 시리즈 칩, NVIDIA Rubin GPU, Axion CPU를 통합한 획기적인 AI 하이퍼컴퓨터를 공식 공개 하며 인공지능(AI) 인프라의 지형을 혁신적으로 바꿀 것이라고 발표했습니다.이번 발표는 에이전트형 AI의 미래를 이끌어가는 중요한 이정표가 될 것입니다.

Google Cloud Next 26: 첨단 기술로 에이전트형 AI를 혁신하는 AI 하이퍼컴퓨터

기존의 슈퍼컴퓨터 시대는 다양한 컴퓨팅 옵션을 결합하여 적응력과 고성능을 갖춘 AI 아키텍처를 구현하는 하이퍼컴퓨터가 주도하는 새로운 패러다임으로 바뀌고 있습니다.구글의 AI 하이퍼컴퓨터는 이러한 진화를 대표하며, 고객에게 컴퓨팅 요구 사항을 충족할 수 있는 전례 없는 유연성을 제공합니다.

'AI 하이퍼컴퓨터'라는 제목의 다이어그램은 세 부분으로 구성되어 있습니다.첫 번째는 '오케스트레이션', '클러스터 관리', '소비 모델'을 포함하는 '유연한 소비' 부분이고, 두 번째는 '프레임워크'와 '추론 엔진'을 포함하는 '오픈 소프트웨어' 부분이며, 세 번째는 '컴퓨팅', '저장 장치', '네트워킹'을 포함하는 '목적에 맞게 설계된 하드웨어' 부분입니다.

AI 하이퍼컴퓨터의 잠재력을 실현하기 위해 구글은 성능에 최적화된 아키텍처를 개발했습니다. AI 하이퍼컴퓨터의 핵심에는 최신 TPUv8 시리즈, 혁신적인 Axion 클라우드 CPU, 그리고 고급 NVIDIA Rubin GPU가 탑재되어 있습니다.여기에는 TPU 8t와 TPU 8i 두 가지 모델로 출시된 구글의 8세대 TPU도 포함됩니다.

학습 성능 향상을 위한 최적화된 TPU 8t 모델

TPU 8t는 강력한 학습 프로세서로 설계되어 최첨단 모델 배포 기간을 몇 달에서 단 몇 주까지 획기적으로 단축합니다.최고 수준의 컴퓨팅 처리량, 향상된 공유 메모리 기능, 그리고 뛰어난 칩 간 대역폭을 전력 효율적인 설계 내에 모두 담았습니다. TPU 8t의 주요 특징은 다음과 같습니다.

탁월한 확장성: 단일 TPU 8t 슈퍼포드는 최대 9, 600개의 칩으로 확장 가능하며, 2페타바이트의 공유 고대역폭 메모리를 제공하여 이전 모델 대비 두 배의 칩 간 대역폭을 제공합니다.이 구성은 최대 121엑사플롭스의 연산 능력을 제공하여 복잡한 모델이 하나의 방대한 메모리 풀을 활용할 수 있도록 합니다.
활용도 극대화: 10배 향상된 스토리지 접근 속도와 최적화된 데이터 검색을 위한 TPUDirect를 결합한 TPU 8t는 시스템 활용도를 전반적으로 향상시킵니다.
거의 선형적인 확장성: 새로운 Virgo 네트워크 와 JAX와 같은 고급 소프트웨어의 통합을 통해 TPU 8t는 최대 백만 개의 칩을 포함하는 논리 클러스터에 대해 거의 선형적인 확장성을 제공합니다.

TPU 8i: 추론 분야의 새로운 기준점

TPU 8i는 추론 작업에 최적화되어 있으며, 인상적인 288GB의 HBM 메모리와 384MB의 온칩 SRAM을 자랑합니다.이는 이전 모델보다 3배 증가한 용량입니다.이러한 아키텍처 덕분에 칩 전체에서 모델을 지속적으로 실행할 수 있습니다. TPU 8i의 주요 특징은 다음과 같습니다.

Axion을 통한 효율성: 이 모델은 서버당 물리적 CPU 호스트 수를 두 배로 늘리고, 성능 향상을 위해 비균일 메모리 아키텍처(NUMA)를 사용하는 맞춤형 Arm 기반 Axion CPU를 활용합니다.
MoE(Mixture of Experts) 모델에 최적화: TPU 8i는 19.2Tb/s의 향상된 ICI(Interconnect) 대역폭과 네트워크 직경을 크게 줄이는 Boardfly 아키텍처를 특징으로 하여 저지연 통합 기능을 보장합니다.
지연 시간 감소: 새로운 온칩 콜렉티브 가속 엔진(CAE) 덕분에 TPU 8i는 온칩 지연 시간을 줄여 성능을 크게 향상시킵니다.

두 개의 Google Cloud TPU v8i 칩이 선명하게 표시되어 있으며, 배경에는 여러 회로 기판이 흐릿하게 나타나 있습니다.

기능 비교표

특징	TPU 8t	TPU 8i
주요 업무량	대규모 사전 훈련	샘플링, 제공 및 추론
네트워크 토폴로지	3D 토러스	보드플라이
특수 칩 기능	SparseCore(임베딩) 및 LLM 디코더 엔진	CAE(집합 가속 엔진)
HBM 용량	216GB	288GB
온칩 SRAM(Vmem)	128MB	384MB
최대 FP4 PFLOPs	12.6	10.1
HBM 대역폭	6.528 GB/s	8, 601GB/s (~TPU 8t의 약 1.3배)
CPU 헤더	암 액시온	암 액시온

AI 하이퍼컴퓨터 주요 기능

다음은 구글의 AI 하이퍼컴퓨터가 가진 혁신적인 기능을 보여주는 수많은 주요 특징들입니다.

TPU 8t는 학습에 최적화되어 있으며, 칩 간 상호 연결(ICI)을 활용하여 단일 슈퍼포드에서 최대 9, 600개의 TPU와 2PB의 공유 메모리를 지원함으로써 이전 모델보다 3배 향상된 에너지 효율을 달성합니다.
TPU 8i는 1, 152개의 TPU를 직접 연결하는 새로운 Boardfly 토폴로지를 활용하며, 이전 모델보다 3배 많은 SRAM을 탑재하여 더 큰 온칩 저장 용량을 지원하고 성능 향상을 위한 특수 CAE를 구현했습니다.
NVIDIA GPU는 제공되는 AI 가속기에서 중요한 역할을 하며, Google은 기존의 Hoover 및 Blackwell 기반 모델 외에도 NVIDIA Vera Rubin NVL72를 도입한 최초의 기업 중 하나입니다.
Google Cloud Axion은 1월에 출시된 N4A Axion 인스턴스를 통해 유사한 x86 인스턴스 대비 가격 대비 성능을 100% 향상시켰습니다.
네트워크 최적화 컴퓨팅이 새로운 C4N 및 M4N 머신 시리즈를 통해 확장됩니다.이 시리즈는 네트워크 집약적인 애플리케이션의 성능을 향상시키고 표준 인스턴스 대비 vCPU당 거의 4배에 달하는 대역폭을 제공하도록 설계되었습니다.
스토리지 분야 의 주요 혁신에는 가속 학습을 위해 초당 10TB의 처리량을 달성할 수 있는 Managed Lustre 의 발전과, 성능이 초당 6TB에서 15TB로 급증하여 학습 및 추론 워크로드를 향상시킨 Rapid Storage의 발전이 포함됩니다.
네트워킹 개선 사항에는 NVIDIA Vera Rubin NVL72 시스템 또는 TPU 8t 슈퍼포드를 연결하여 정교한 모델의 분산 학습을 향상시키는 광범위한 슈퍼컴퓨터를 구성하도록 설계된 최적화된 아키텍처인 Virgo Network가 포함됩니다.

구글 AI 하이퍼컴퓨터의 주요 고객으로는 미국 에너지부, 보스턴 다이내믹스, 시타델 증권, 씽킹 머신 랩스, 악시아 에너지와 같은 대기업들이 있습니다.

출처 및 이미지