AMD 기반 프론티어 슈퍼컴퓨터는 37K MI250X GPU 중 3K를 사용하여 ChatGPT-4와 비교할 수 있는 무려 1조 매개변수 LLM 실행을 달성합니다.

Instinct MI250X GPU를 탑재한 AMD 기반 Frontier 슈퍼컴퓨터는 ChatGPT-4에 필적하는 1조 매개변수 LLM 실행을 달성했습니다.

Frontier 슈퍼컴퓨터는 LLM 교육 분야에서 새로운 기록을 세웠습니다. AMD의 EPYC CPU & 본능적인 GPU

Frontier 슈퍼컴퓨터는 세계 최고의 슈퍼컴퓨터이자 현재 작동 중인 유일한 Exascale 시스템입니다. 이 시스템은 AMD의 EPYC & 최고의 HPC 성능을 제공할 뿐만 아니라 지구상에서 두 번째로 효율적인 슈퍼컴퓨터이기도 한 본능적인 하드웨어입니다. a>. 개인이 Arxiv에 제출한 보고서에 따르면 Frontier 슈퍼컴퓨터는 “초매개변수 조정”을 통해 1조 개의 매개변수를 훈련하는 능력에 도달하여 새로운 산업을 개척한 것으로 나타났습니다. 벤치마크.

핵심으로 들어가기 전에 Frontier 슈퍼컴퓨터가 무엇을 보유하고 있는지 간단히 요약해 보겠습니다. ORNL의 슈퍼컴퓨터는 처음부터 AMD의 3세대 EPYC Trento CPU 및 Instinct MI250X GPU 가속기를 사용하여 설계되었습니다. 미국 에너지부(DOE)가 운영하는 미국 테네시주 오크리지 국립연구소(ORNL)에 설치됐다. 현재 8,699,904개의 코어를 사용하여 1.194 Exaflop/s를 달성했습니다. HPE Cray EX 아키텍처는 HPC 및 AI에 최적화된 3세대 AMD EPYC CPU와 AMD Instinct 250X 가속기 및 Slingshot-11 상호 연결을 결합합니다. Frontier는 Top500.org 슈퍼컴퓨터 목록에서 1위 자리를 유지하며 그 지배력을 보여주었습니다.

Frontier가 달성한 새로운 기록은 LLM을 교육하고 온보드 하드웨어를 가장 효율적으로 사용하기 위한 효과적인 전략을 구현한 결과입니다. 팀은 220억, 1750억, 1조 매개변수에 대한 광범위한 테스트를 통해 주목할만한 결과를 얻을 수 있었으며, 얻은 수치는 모델 훈련 프로세스를 최적화하고 미세 조정한 결과입니다. 이 결과는 상대적으로 오래된 하드웨어임에도 불구하고 그 우수성을 입증한 최대 3,000개의 AMD MI250X AI 가속기를 사용하여 달성되었습니다.

더 흥미로운 점은 Frontier 슈퍼컴퓨터 전체에 37,000개의 MI250X GPU가 탑재되어 있어 전체 GPU 풀을 사용하여 LLM을 구동할 때 어떤 성능을 발휘할지 상상할 수 있다는 것입니다. AMD는 또한 강력한 ROCm 6.0 생태계를 갖춘 최신 슈퍼컴퓨터에 MI300 GPU 가속기 구현을 앞두고 있습니다. AI 성능을 더욱 가속화합니다.

220억, 1750억, 1조 매개변수의 경우 각각 38.38%, 36.14%, 31.96%의 GPU 처리량을 달성했습니다. 1750억 매개변수 모델과 1조 매개변수 모델의 훈련을 위해 우리는 각각 1024 및 3072 MI250X GPU에서 약한 스케일링 효율성 100%를 달성했습니다. 또한 이 두 모델에 대해 89%와 87%의 강력한 확장 효율성을 달성했습니다.

– 아르빅스

뉴스 출처: Arvix