AMD와 인텔, x86 프로세서용 표준 매트릭스 가속 아키텍처를 통해 AI 성능 향상을 위한 ACE 파트너십 체결

AI 컴퓨팅 확장(ACE)은 행렬 곱셈 성능을 향상시켜 인공지능 분야에 혁신을 가져올 것으로 기대됩니다.인텔과 AMD는 통합된 x86 아키텍처를 기반으로 전략을 조율하고, AI 애플리케이션에 탁월한 연산 능력을 제공하는 데 집중하기 위해 협력하고 있습니다.

ACE: 인공지능 시대에 인텔과 AMD의 통합 x86 전략을 위한 촉매제

인텔과 AMD는 x86 생태계를 강화하기 위해 작년에 “x86 생태계 자문 그룹”을 설립했습니다.이 그룹은 다양한 아키텍처에서 기능을 표준화하여 x86을 더욱 접근하기 쉽고, 확장 가능하며, 미래 지향적으로 만드는 것을 목표로 합니다.이 그룹은 FRED, AVX10, ChkTag, ACE라는 네 가지 핵심 기능을 소개했습니다.

AMD와 인텔이 최근 발표한 ACE 백서는 x86 칩용으로 설계된 이 혁신적인 기능의 발전과 잠재력에 대한 정보를 제공합니다.

EAG의 의견은 AMD와 Intel이 ACE 명령어 세트 아키텍처(ISA)를 개선하기 위한 협력을 촉진했습니다.이러한 공동 노력은 양사의 기여를 통합하고 EAG의 광범위한 커뮤니티에서 얻은 통찰력을 활용하여 여러 가지 긍정적인 결과를 가져왔습니다. AMD와 Intel은 ACE와 AVX10에 대한 미래 노력을 공동으로 추진하여 AI 및 다양한 워크로드 영역에서 새로운 기회를 창출하고자 합니다.x86의 광범위한 채택과 높은 효율성을 고려할 때, ISA에 ACE를 추가함으로써 x86 생태계의 기능이 크게 향상될 것입니다.

본 논문은 x86 ISA용 AI 컴퓨팅 확장(ACE)을 소개하고, 행렬 곱셈 성능, 확장성 및 에너지 효율성 측면에서 주목할 만한 개선 사항을 강조합니다. ACE는 AVX10과 원활하게 통합되어 x86 환경에서 사용하기 쉽고 광범위하게 적용 가능한 행렬 가속 솔루션을 제공합니다.

수많은 신경망과 대규모 언어 모델의 핵심은 행렬 곱셈에 기반합니다. AVX10과 같은 기존 SIMD 확장 기능은 이러한 연산을 실행할 수 있지만, 확장성과 연산 밀도 측면에서 한계가 있습니다.가속 행렬 곱셈(Accelerated Matrix Multiplication, AMP)과 같은 기술은 성능 향상을 제공하지만, 항상 가장 효율적인 방법은 아닙니다.

EAG는 ACE를 통해 행렬 곱셈 기능을 향상시키면서 유연성과 확장성을 개선하는 것을 목표로 합니다.이 개발을 통해 기존 AVX10 최적화 기능을 재사용할 수 있어 노트북부터 고성능 컴퓨팅 환경에 이르기까지 적용 가능한 다목적 행렬 가속 프레임워크를 구축할 수 있습니다.이러한 확장성은 전용 AI 하드웨어에 의존하는 경우에 비해 개발자의 부담을 최소화합니다.

백서에 명시된 바와 같이 AMD와 인텔은 ACE를 “x86용 표준 매트릭스 가속 아키텍처”로 지정하고 있습니다.

기술적 측면에서 ACE는 INT8, OCP FP8, OCP MXFP8, OCP MXINT8, BF16 등 다양한 AI 데이터 형식의 네이티브 행렬 곱셈을 지원하도록 설계되었습니다.또한 ACE는 AVX10에 최적화된 외적 연산을 통해 행렬 가속을 제공합니다.이 접근 방식은 동일한 입력 벡터 수를 사용하면서 표준 AVX10 곱셈-누적 연산 대비 연산 밀도를 최대 16배까지 향상시킵니다.

AVX10 명령어 세트의 확장으로서 ACE의 소프트웨어 통합은 이미 진행 중이며, 다음과 같은 여러 중요한 영역을 포함합니다.