Meta의 Catalina Pod AI 시스템은 NVIDIA Blackwell GB200 NVL72, Open Rack v3 및 고급 액체 냉각 기술을 통합합니다.

Meta의 Catalina Pod AI 시스템은 NVIDIA Blackwell GB200 NVL72, Open Rack v3 및 고급 액체 냉각 기술을 통합합니다.

Meta는 Open Rack v3 및 액체 냉각 시스템의 발전과 함께 NVIDIA의 GB200 NVL72 기술을 활용하는 혁신적인 Catalina AI 시스템에 대한 중요한 세부 정보를 공개했습니다.

데이터 센터 혁신: Catalina Pod용 Meta 맞춤형 NVIDIA GB200 NVL72 Blackwell 플랫폼

2022년 Meta는 주로 약 6, 000개의 유닛으로 구성된 GPU 클러스터에 집중했으며, 이는 주로 기존 순위 및 추천 알고리즘을 지원하는 데 목적을 두었습니다.이러한 클러스터는 일반적으로 128개에서 512개의 GPU로 운영되었습니다.그러나 지난 한 해 동안 생성 AI(GenAI)와 대규모 언어 모델(LLM)의 폭발적인 성장에 힘입어 놀라운 변화가 일어났습니다.

연도별 AI 클러스터 크기 증가

오늘날 Meta의 GPU 클러스터는 16, 000개에서 24, 000개로 확장되어 4배의 증가를 기록했습니다.작년 기준으로 Meta는 10만 개 이상의 GPU를 운영 중이며 계속해서 확장하고 있습니다. LLama 모델과 같은 소프트웨어 발전을 통해 Meta는 가까운 미래에 클러스터 규모가 무려 10배 증가할 것으로 예상합니다.

Meta, NVIDIA 및 Open Compute 프로젝트 협업

Meta는 NVIDIA와 긴밀히 협력하여 NVL72 GPU 솔루션을 기반으로 Catalina 프로젝트를 시작했습니다.시스템을 각 회사의 특정 요구 사항에 맞게 조정하기 위해 수정 작업을 거쳤으며, 양사는 MGX 및 NVL72에 대한 참조 설계를 오픈소스 프레임워크에 제공하여 Open Compute Project 웹사이트에서 광범위하게 접근할 수 있도록 했습니다.

데이터 센터 IT 랙

Catalina 시스템은 Meta의 최첨단 기술을 데이터 센터 전반에 걸쳐 적용한 사례로, 각 시스템 구성을 “포드”라고 합니다.이러한 모듈식 설계는 기본 프레임워크를 복제하여 시스템의 빠른 확장성을 가능하게 합니다.

NVIDIA MGX GB200 시스템 구성
Grace CPU를 사용한 Meta Catalina 구성

Meta의 맞춤형 NVL72 설계의 가장 큰 특징은 각각 72개의 GPU로 구성된 단일 스케일업 도메인을 형성하는 이중 IT 랙입니다.두 랙 모두 구성이 일관되게 유지되며, 상단과 하단 섹션 사이에 18개의 컴퓨팅 트레이와 각 측면에 9개의 NV 스위치가 배치됩니다.이중 케이블 연결은 두 랙의 GPU 리소스를 통합하여 단일 컴퓨팅 도메인을 효과적으로 구축하는 데 매우 중요합니다.

NVIDIA와 Meta GB200 NVL72 리소스 비교

각 랙에는 고전력 밀도 운영을 위해 설계된 대형 공기 보조 액체 냉각(ALC) 장치가 장착되어 있습니다.이러한 구성을 통해 Meta는 북미 및 전 세계 데이터센터에 액체 냉각 시스템을 효율적으로 구축할 수 있습니다.

카탈리나 아키텍처 개요

이러한 듀얼 랙을 통해 Meta는 CPU 수를 효과적으로 두 배로 늘리고 메모리 용량을 극대화하여 랙당 최대 34TB의 LPDDR 메모리를 장착할 수 있습니다.이를 통해 GPU와 CPU 모두에서 총 48TB의 캐시 일관성 메모리에 접근할 수 있습니다.전원 공급 장치(PSU)는 480V 또는 277V 단상으로 작동하여 48V DC로 변환되어 아키텍처 내 모든 서버 블레이드, 네트워킹 장치 및 NV 스위치에 전원을 공급합니다.

고전력 랙 배치
데이터 센터 냉각 시스템
데이터 센터 누출 감지 시스템
AI 최적화 분산형 스케줄드 패브릭 네트워크
Catalina Interconnect를 사용한 GPU 네트워킹 설정

또한, 이 구성은 각 랙의 상단과 하단에 전원 공급 선반을 갖추고 있으며, 하단에는 추가 장치가 있습니다. Meta는 백엔드 네트워크에 연결된 모든 내부 광섬유 케이블을 관리하는 특수 광섬유 경로 패널을 구현하여 확장 도메인을 지원하는 엔드포인트 스위치와의 원활한 연결을 보장합니다.

컴퓨팅 트레이 개략도

견고한 인프라를 지원하기 위해 Meta는 NVIDIA NVL72 GB200 Blackwell 시스템에 내재된 첨단 기술과 대용량 전원 공급 장치 및 블레이드와 같은 독보적인 기능을 통합했습니다.랙 관리 컨트롤러(RMC)와 결합된 수냉 시스템은 냉각 프로토콜을 효율적으로 관리하는 동시에 누출을 모니터링합니다.

메타보드 vs 엔비디아 GB200 레퍼런스
PDB 회로 기판 클로즈업
전력 분배 다이어그램
DC-SCM 하드웨어 보드 클로즈업
RMC 설계 및 연결 다이어그램
누설 감지 차트

Meta의 대용량 OpenRack v3를 통해 랙 내 전력 할당량이 600A에서 94kW로 대폭 향상되어 통합 액체 냉각 시스템을 갖춘 첨단 시설과 호환됩니다.이러한 액체 흐름 관리는 RMC를 통해 효율적으로 수행되며, RMC는 랙 내 다양한 ​​구성 요소의 잠재적 누출을 모니터링하는 동시에 냉각 시스템의 최적 작동을 조율합니다.

컴퓨팅 트레이 아키텍처 다이어그램

또한, Meta는 분산형 스케줄링 패브릭을 채택하여 단일 데이터 시설 내 여러 포드(pod)의 상호 연결을 지원하여 여러 건물을 원활하게 연결할 수 있는 확장 가능한 모델을 구축합니다.이 인프라는 AI 애플리케이션에 최적화되어 GPU 간 통신과 전반적인 시스템 유연성을 향상시킵니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다