AI 컴퓨팅 확장(ACE)은 행렬 곱셈 성능을 향상시켜 인공지능 분야에 혁신을 가져올 것으로 기대됩니다.인텔과 AMD는 통합된 x86 아키텍처를 기반으로 전략을 조율하고, AI 애플리케이션에 탁월한 연산 능력을 제공하는 데 집중하기 위해 협력하고 있습니다.
ACE: 인공지능 시대에 인텔과 AMD의 통합 x86 전략을 위한 촉매제
인텔과 AMD는 x86 생태계를 강화하기 위해 작년에 “x86 생태계 자문 그룹”을 설립했습니다.이 그룹은 다양한 아키텍처에서 기능을 표준화하여 x86을 더욱 접근하기 쉽고, 확장 가능하며, 미래 지향적으로 만드는 것을 목표로 합니다.이 그룹은 FRED, AVX10, ChkTag, ACE라는 네 가지 핵심 기능을 소개했습니다.
AMD와 인텔이 최근 발표한 ACE 백서는 x86 칩용으로 설계된 이 혁신적인 기능의 발전과 잠재력에 대한 정보를 제공합니다.
EAG의 의견은 AMD와 Intel이 ACE 명령어 세트 아키텍처(ISA)를 개선하기 위한 협력을 촉진했습니다.이러한 공동 노력은 양사의 기여를 통합하고 EAG의 광범위한 커뮤니티에서 얻은 통찰력을 활용하여 여러 가지 긍정적인 결과를 가져왔습니다. AMD와 Intel은 ACE와 AVX10에 대한 미래 노력을 공동으로 추진하여 AI 및 다양한 워크로드 영역에서 새로운 기회를 창출하고자 합니다.x86의 광범위한 채택과 높은 효율성을 고려할 때, ISA에 ACE를 추가함으로써 x86 생태계의 기능이 크게 향상될 것입니다.
본 논문은 x86 ISA용 AI 컴퓨팅 확장(ACE)을 소개하고, 행렬 곱셈 성능, 확장성 및 에너지 효율성 측면에서 주목할 만한 개선 사항을 강조합니다. ACE는 AVX10과 원활하게 통합되어 x86 환경에서 사용하기 쉽고 광범위하게 적용 가능한 행렬 가속 솔루션을 제공합니다.
수많은 신경망과 대규모 언어 모델의 핵심은 행렬 곱셈에 기반합니다. AVX10과 같은 기존 SIMD 확장 기능은 이러한 연산을 실행할 수 있지만, 확장성과 연산 밀도 측면에서 한계가 있습니다.가속 행렬 곱셈(Accelerated Matrix Multiplication, AMP)과 같은 기술은 성능 향상을 제공하지만, 항상 가장 효율적인 방법은 아닙니다.

EAG는 ACE를 통해 행렬 곱셈 기능을 향상시키면서 유연성과 확장성을 개선하는 것을 목표로 합니다.이 개발을 통해 기존 AVX10 최적화 기능을 재사용할 수 있어 노트북부터 고성능 컴퓨팅 환경에 이르기까지 적용 가능한 다목적 행렬 가속 프레임워크를 구축할 수 있습니다.이러한 확장성은 전용 AI 하드웨어에 의존하는 경우에 비해 개발자의 부담을 최소화합니다.
백서에 명시된 바와 같이 AMD와 인텔은 ACE를 “x86용 표준 매트릭스 가속 아키텍처”로 지정하고 있습니다.
기술적 측면에서 ACE는 INT8, OCP FP8, OCP MXFP8, OCP MXINT8, BF16 등 다양한 AI 데이터 형식의 네이티브 행렬 곱셈을 지원하도록 설계되었습니다.또한 ACE는 AVX10에 최적화된 외적 연산을 통해 행렬 가속을 제공합니다.이 접근 방식은 동일한 입력 벡터 수를 사용하면서 표준 AVX10 곱셈-누적 연산 대비 연산 밀도를 최대 16배까지 향상시킵니다.
AVX10 명령어 세트의 확장으로서 ACE의 소프트웨어 통합은 이미 진행 중이며, 다음과 같은 여러 중요한 영역을 포함합니다.
- 딥러닝 및 HPC 라이브러리(예: 저정밀 GEMM, LLM 기본 요소)
- 널리 사용되는 NumPy 및 SciPy와 같은 Python 기반 라이브러리
- PyTorch 및 TensorFlow를 포함한 머신러닝 프레임워크
ACE는 x86 아키텍처의 미래를 위한 중요한 진전입니다.특히 NVIDIA CEO조차 인텔과 AMD의 협력이 x86 아키텍처의 중요성을 유지하는 데 필수적이라고 강조한 바 있습니다.이러한 파트너십을 통해 x86 생태계는 견고한 성장 궤도에 오른 것으로 보입니다.
뉴스 출처: @G_melo_ding
답글 남기기