Apple과 NVIDIA, 대규모 언어 모델을 사용하여 더 빠른 텍스트 생성을 위한 ‘ReDrafter’ 기술 개발을 위해 협력

Apple은 Generative AI 분야에서 독특한 경로를 택해 NVIDIA GPU에 의존하기보다는 클라우드 기반 애플리케이션에 자체 실리콘을 활용하기로 했습니다. 이 전략적 결정은 대규모 언어 모델(LLM)의 처리 기능을 향상시키는 것을 목표로 하는 다가올 M4 Ultra 칩의 도입과 함께 진화할 것으로 예상됩니다. 그러나 최근 Apple은 LLM을 사용하여 텍스트 생성 프로세스를 가속화하기 위해 NVIDIA와 협력할 의향을 나타내며 두 기술 거대 기업 간의 시너지 가능성을 보여주었습니다.

‘ReDrafter’ 소개: 텍스트 생성의 게임 체인저

Apple은 최근 ‘ReDrafter’라는 혁신적인 기술을 공개했습니다. Recurrent Drafter의 줄임말로, 텍스트 생성 기술의 새로운 기준을 제시합니다. 이 방법은 빔 검색과 트리 어텐션이라는 두 가지 뚜렷한 접근 방식을 독창적으로 통합합니다. 두 전략 모두 텍스트 생성 성능을 향상하도록 설계되었습니다. 광범위한 내부 연구를 거쳐 Apple은 NVIDIA와 협력하여 TensorRT-LLM 프레임워크 내에 ReDrafter를 내장했습니다. 이 프레임워크는 NVIDIA 하드웨어에서 실행되는 LLM의 성능을 가속화하도록 최적화된 정교한 도구입니다.

중요한 점은 ReDrafter가 속도를 높이기 위해 설계된 것이 아니라 운영 대기 시간을 줄이고 에너지 소비를 줄이는 것을 목표로 한다는 것입니다. 이는 오늘날의 기술 환경에서 점점 더 중요해지는 요소입니다.

“이 연구 작업은 강력한 결과를 보여주었지만, 더 큰 영향은 LLM 추론을 가속화하기 위해 프로덕션에 적용되었다는 것입니다. 이 발전을 NVIDIA GPU에 프로덕션에 적용하기 위해 NVIDIA와 협력하여 ReDrafter를 NVIDIA TensorRT-LLM 추론 가속 프레임워크에 통합했습니다.

TensorRT-LLM은 수많은 오픈소스 LLM과 Medusa 추측 디코딩 방법을 지원하지만, ReDrafter의 빔 검색 및 트리 어텐션 알고리즘은 이전 애플리케이션에서 사용된 적이 없는 연산자에 의존합니다. ReDrafter의 통합을 가능하게 하기 위해 NVIDIA는 새로운 연산자를 추가하거나 기존 연산자를 노출하여 정교한 모델과 디코딩 방법을 수용하는 TensorRT-LLM의 기능을 상당히 개선했습니다. NVIDIA GPU를 사용하는 ML 개발자는 이제 TensorRT-LLM을 사용하여 프로덕션 LLM 애플리케이션에 대한 ReDrafter의 가속화된 토큰 생성의 이점을 쉽게 누릴 수 있습니다.

NVIDIA GPU에서 수십억 개의 매개변수 생산 모델을 벤치마킹할 때, ReDrafter와 함께 NVIDIA TensorRT-LLM 추론 가속 프레임워크를 사용하여 탐욕적 디코딩에서 초당 생성된 토큰 속도가 2.7배 빨라졌습니다. 이러한 벤치마크 결과는 이 기술이 사용자가 경험할 수 있는 지연 시간을 크게 줄이는 동시에 GPU를 덜 사용하고 전력 소모를 줄일 수 있음을 나타냅니다.”

이 협업은 Apple과 NVIDIA 간의 잠재적이지만 불안정한 동맹을 의미하며, 이는 기술 회사가 종종 상호 이익에 의해 추진되는 파트너십을 연상시킵니다. 그러나 두 회사 간의 남아 있는 역사적 긴장은 지속적인 공식 파트너십의 가능성에 의문을 제기합니다. 이와 같은 일시적인 협업이 다시 나타날 수 있지만, 장기적인 동맹의 가능성은 낮아 보입니다.

자세한 내용은 Apple의 원본 보도자료인 Apple 공식 블로그를 살펴보세요 .

또한, 포괄적인 기사인 Wccftech의 보도 내용에서 통찰력을 얻을 수 있습니다 .