OpenAI 코덱 모델은 세레브라스 인프라를 활용하여 AI 추론 분야에서 NVIDIA를 대체할 강력한 대안을 제시합니다.

OpenAI는 Cerebras의 첨단 AI 칩을 자사 운영에 통합함으로써 기술적 여정에서 중요한 도약을 이루었습니다.이번 협력은 컴퓨팅 환경의 광범위한 변화를 보여주는 중요한 순간이며, OpenAI는 최신 모델인 Codex가 기존의 NVIDIA 칩 외에도 Cerebras 칩을 지원한다고 발표했습니다.

OpenAI, Cerebras의 고속 기술을 활용하여 초당 1, 000건 처리라는 놀라운 성과 달성

OpenAI가 NVIDIA와의 재정적 관계를 조율하는 과정에서, 앞서 Cerebras와 맺은 파트너십이 컴퓨팅 분야에 혁신적인 변화를 가져왔다는 점은 주목할 만합니다.최근 발표된 GPT-5.3 Codex-Spark 에서 OpenAI는 Cerebras 하드웨어의 장점, 특히 추론 작업에서의 탁월한 ‘저지연’ 성능을 강조했습니다.이러한 협력은 특히 모델 추론 분야에서 NVIDIA의 독점적 지위에 강력한 도전을 제기합니다.

Codex-Spark 변형은 기존 Codex 모델과 달리 운영 효율성을 향상시키는 기능을 갖추고 있습니다. OpenAI는 이 모델이 즉각적인 응답성을 위해 특별히 설계되어 지연 시간을 획기적으로 개선했다고 주장합니다.처리 파이프라인을 최적화하고 Cerebras의 최첨단 하드웨어를 효과적으로 활용함으로써 첫 번째 토큰 생성 시간(Time-to-First Token, TTO)을 무려 50%나 단축했다고 밝히며 그 성능을 입증했습니다.특히 Codex-Spark는 Cerebras Wafer Scale Engine 3에서 작동하며, 아래에 강조된 바와 같이 인상적인 사양을 자랑합니다.

사양	WSE-3
프로세스 노드	TSMC 5nm
트랜지스터	약 4조
컴퓨팅 코어	90만 개의 AI 최적화 코어
온칩 SRAM	44GB
메모리 대역폭(온칩)	21 PB/s
웨이퍼 크기	300mm 웨이퍼 크기의 완전한 칩
핵심 아키텍처	AI에 최적화된 프로그래밍 가능 프로세싱 코어

OpenAI가 Cerebras를 선택한 주된 이유는 WSE-3가 제공하는 상당한 메모리 대역폭 때문입니다.이는 코딩과 같은 메모리 집약적인 작업에 필수적입니다.이러한 대용량 지원 덕분에 Codex-Spark는 초당 1, 000건의 트랜잭션(TPS)이라는 놀라운 처리량을 달성하여 마치 인간 페어 프로그래머처럼 빠른 응답 속도를 보여줍니다.흥미롭게도 NVIDIA의 인프라는 배치 처리에 중점을 두기 때문에 저지연 성능을 고려하지 않고 이 모델을 학습시키는 것은 경제적으로 비효율적입니다.따라서 Cerebras는 합리적인 선택이 됩니다.

세레브라 웨이퍼 스케일 엔진 3과 NVIDIA H100 비교 — 이미지 출처: 세레브라스

추론 시나리오에서 세레브라의 유망한 성능에도 불구하고, NVIDIA는 여전히 시장을 장악하고 있습니다.최근 발표에서 NVIDIA는 블랙웰 아키텍처를 통해 토큰 비용을 최대 10배까지 절감할 수 있다고 밝히며 시장 지배력을 더욱 공고히 했습니다.오픈AI의 사친 카티는 세레브라가 제공하는 ‘상호 보완적인 기능’을 언급했지만, 컴퓨팅 경쟁에서 오픈AI의 주된 지지 기반은 여전히 NVIDIA인 것으로 보입니다.그러나 코덱스-스파크의 등장은 지연 시간 측면에서 중요한 병목 현상을 부각시켰으며, NVIDIA의 현재 기술 프레임워크는 이 분야에서 경쟁하기에 최적의 위치에 있지 않을 수 있음을 시사합니다.

향후 추론 시장은 더욱 경쟁이 치열해질 것으로 예상되며, NVIDIA는 Cerebras와 같은 강력한 경쟁업체는 물론 AMD와 같은 다른 ASIC 제조업체 및 경쟁사의 혁신에 직면하게 될 것입니다.이러한 변화들이 향후 NVIDIA의 전략 및 시장 포지셔닝에 어떤 영향을 미칠지는 앞으로 지켜봐야 할 것입니다.

출처 및 이미지