Meta의 Catalina Pod AI 시스템은 NVIDIA Blackwell GB200 NVL72, Open Rack v3 및 고급 액체 냉각 기술을 통합합니다.

Meta는 Open Rack v3 및 액체 냉각 시스템의 발전과 함께 NVIDIA의 GB200 NVL72 기술을 활용하는 혁신적인 Catalina AI 시스템에 대한 중요한 세부 정보를 공개했습니다.

데이터 센터 혁신: Catalina Pod용 Meta 맞춤형 NVIDIA GB200 NVL72 Blackwell 플랫폼

2022년 Meta는 주로 약 6, 000개의 유닛으로 구성된 GPU 클러스터에 집중했으며, 이는 주로 기존 순위 및 추천 알고리즘을 지원하는 데 목적을 두었습니다.이러한 클러스터는 일반적으로 128개에서 512개의 GPU로 운영되었습니다.그러나 지난 한 해 동안 생성 AI(GenAI)와 대규모 언어 모델(LLM)의 폭발적인 성장에 힘입어 놀라운 변화가 일어났습니다.

오늘날 Meta의 GPU 클러스터는 16, 000개에서 24, 000개로 확장되어 4배의 증가를 기록했습니다.작년 기준으로 Meta는 10만 개 이상의 GPU를 운영 중이며 계속해서 확장하고 있습니다. LLama 모델과 같은 소프트웨어 발전을 통해 Meta는 가까운 미래에 클러스터 규모가 무려 10배 증가할 것으로 예상합니다.

Meta는 NVIDIA와 긴밀히 협력하여 NVL72 GPU 솔루션을 기반으로 Catalina 프로젝트를 시작했습니다.시스템을 각 회사의 특정 요구 사항에 맞게 조정하기 위해 수정 작업을 거쳤으며, 양사는 MGX 및 NVL72에 대한 참조 설계를 오픈소스 프레임워크에 제공하여 Open Compute Project 웹사이트에서 광범위하게 접근할 수 있도록 했습니다.

Catalina 시스템은 Meta의 최첨단 기술을 데이터 센터 전반에 걸쳐 적용한 사례로, 각 시스템 구성을 “포드”라고 합니다.이러한 모듈식 설계는 기본 프레임워크를 복제하여 시스템의 빠른 확장성을 가능하게 합니다.

Meta의 맞춤형 NVL72 설계의 가장 큰 특징은 각각 72개의 GPU로 구성된 단일 스케일업 도메인을 형성하는 이중 IT 랙입니다.두 랙 모두 구성이 일관되게 유지되며, 상단과 하단 섹션 사이에 18개의 컴퓨팅 트레이와 각 측면에 9개의 NV 스위치가 배치됩니다.이중 케이블 연결은 두 랙의 GPU 리소스를 통합하여 단일 컴퓨팅 도메인을 효과적으로 구축하는 데 매우 중요합니다.

각 랙에는 고전력 밀도 운영을 위해 설계된 대형 공기 보조 액체 냉각(ALC) 장치가 장착되어 있습니다.이러한 구성을 통해 Meta는 북미 및 전 세계 데이터센터에 액체 냉각 시스템을 효율적으로 구축할 수 있습니다.

이러한 듀얼 랙을 통해 Meta는 CPU 수를 효과적으로 두 배로 늘리고 메모리 용량을 극대화하여 랙당 최대 34TB의 LPDDR 메모리를 장착할 수 있습니다.이를 통해 GPU와 CPU 모두에서 총 48TB의 캐시 일관성 메모리에 접근할 수 있습니다.전원 공급 장치(PSU)는 480V 또는 277V 단상으로 작동하여 48V DC로 변환되어 아키텍처 내 모든 서버 블레이드, 네트워킹 장치 및 NV 스위치에 전원을 공급합니다.

또한, 이 구성은 각 랙의 상단과 하단에 전원 공급 선반을 갖추고 있으며, 하단에는 추가 장치가 있습니다. Meta는 백엔드 네트워크에 연결된 모든 내부 광섬유 케이블을 관리하는 특수 광섬유 경로 패널을 구현하여 확장 도메인을 지원하는 엔드포인트 스위치와의 원활한 연결을 보장합니다.

견고한 인프라를 지원하기 위해 Meta는 NVIDIA NVL72 GB200 Blackwell 시스템에 내재된 첨단 기술과 대용량 전원 공급 장치 및 블레이드와 같은 독보적인 기능을 통합했습니다.랙 관리 컨트롤러(RMC)와 결합된 수냉 시스템은 냉각 프로토콜을 효율적으로 관리하는 동시에 누출을 모니터링합니다.

Meta의 대용량 OpenRack v3를 통해 랙 내 전력 할당량이 600A에서 94kW로 대폭 향상되어 통합 액체 냉각 시스템을 갖춘 첨단 시설과 호환됩니다.이러한 액체 흐름 관리는 RMC를 통해 효율적으로 수행되며, RMC는 랙 내 다양한 구성 요소의 잠재적 누출을 모니터링하는 동시에 냉각 시스템의 최적 작동을 조율합니다.

또한, Meta는 분산형 스케줄링 패브릭을 채택하여 단일 데이터 시설 내 여러 포드(pod)의 상호 연결을 지원하여 여러 건물을 원활하게 연결할 수 있는 확장 가능한 모델을 구축합니다.이 인프라는 AI 애플리케이션에 최적화되어 GPU 간 통신과 전반적인 시스템 유연성을 향상시킵니다.

출처 및 이미지