NVIDIA는 Team Green의 극단적인 코드디자인 전략 덕분에 새로운 Blackwell 플랫폼으로 토큰 비용을 10배 절감했습니다.

NVIDIA의 최신 블랙웰 플랫폼은 AI 추론을 위한 토큰 최적화 분야에서 새로운 기준을 제시하며 토큰 경제학 분야에서 중요한 성과를 거두었습니다.

NVIDIA의 GB200 NVL72는 10배 향상된 토큰 경제성으로 Hopper를 능가하며, “전문가 수준”의 병렬 처리 성능으로 주목받고 있습니다.

빠르게 변화하는 AI 기술 환경 속에서 NVIDIA는 하드웨어 효율성 향상을 최우선 과제로 삼아왔습니다.블랙웰(Blackwell)로 학습된 최첨단 AI 모델 도입으로 토큰 생성량과 관련 비용 측면에서 괄목할 만한 개선이 이루어졌습니다.최근 NVIDIA는 블랙웰의 성능을 향상시키기 위해 다양한 기업과 협력한 내용을 공개하며, 이전 세대 호퍼(Hopper) 대비 10배 향상된 성능을 자랑했습니다.

Baseten, DeepInfra, Fireworks AI, Together AI와 같은 주요 추론 서비스 제공업체들은 NVIDIA Blackwell 플랫폼을 활용하여 NVIDIA Hopper 플랫폼 대비 토큰당 비용을 최대 10배까지 절감하고 있습니다.이들 기업은 최첨단 수준의 지능을 갖춘 정교한 오픈 소스 모델을 호스팅하고 있습니다.

이러한 공급업체들은 오픈 소스 기반의 최첨단 인텔리전스와 NVIDIA Blackwell의 강력한 하드웨어-소프트웨어 공동 설계 및 맞춤형 추론 스택을 결합하여 다양한 분야의 기업들에게 상당한 비용 절감을 제공하고 있습니다.

– 엔비디아

NVIDIA는 Baseten, Sully.ai, DeepInfra, Latitude와 같은 기업들이 Blackwell을 활용하여 토큰 경제성을 최적화하는 데 기여한 공로를 인정했습니다.이들 기업은 지연 시간 단축, 추론 비용 절감, 안정적인 결과 도출 등의 이점을 누리며 Blackwell을 현대 AI 기업에서 선호하는 기술 스택으로 자리매김했습니다.특히 Sentient Labs는 Hopper 플랫폼 대비 “25~50% 향상된 비용 효율성”을 달성했다고 보고했는데, 이는 특히 다중 에이전트 및 특정 AI 에이전트 배포 환경에서 두드러집니다.

이 이미지는 시스템 비용과 각 토큰과 관련된 비용을 도표를 이용하여 비교한 것입니다. — 이미지 출처: NVIDIA

블랙웰 아키텍처의 성공은 NVIDIA의 혁신적인 “익스트림 코디자인(extreme co-design)” 전략 덕분이며, 이는 특히 최신 MoE(Mixture of Experts) 아키텍처와 호환성이 뛰어납니다. GB200 NVL72는 72개의 칩 구성과 30TB의 고속 공유 메모리를 통해 전문가 병렬 처리 성능을 전례 없는 수준으로 끌어올렸습니다.이 아키텍처는 GPU 전반에 걸쳐 배치 분할 및 분산을 지속적으로 수행할 수 있도록 하여 통신량을 비선형적으로 증가시키는데, 이는 최적의 토큰 경제성을 달성하는 데 매우 중요한 요소입니다.

NVIDIA는 앞으로 Vera Rubin 프로젝트를 통해 인프라 효율성을 더욱 향상시키는 것을 목표로 하고 있으며, 아키텍처 혁신과 사전 입력 기능을 위한 CPX와 같은 특수 도구에 집중할 것입니다. AI 기술의 빠른 발전 속도를 고려할 때, 기존 하드웨어 최적화는 새로운 시스템 개발만큼이나 중요합니다.

출처 및 이미지