Apple は、Generative AI の分野で独自の道を歩み、クラウドベースのアプリケーションに NVIDIA GPU に頼るのではなく、自社の独自シリコンを利用することを選択しました。この戦略的決定は、大規模言語モデル (LLM) の処理能力を強化することを目的とした、近日発売予定の M4 Ultra チップの導入によって進化すると予想されています。しかし最近、Apple は NVIDIA と協力し、LLM を使用してテキスト生成プロセスを高速化する意向を示しており、この 2 つのテクノロジー大手の相乗効果の可能性を示しています。
「ReDrafter」のご紹介: テキスト生成のゲームチェンジャー
Apple は最近、「ReDrafter」(Recurrent Drafter の略) と呼ばれる革新的な技術を発表しました。これは、テキスト生成技術の新たなベンチマークとなります。この方法は、ビーム サーチとツリー アテンションという 2 つの異なるアプローチを巧みに統合しています。どちらの戦略も、テキスト生成のパフォーマンスを向上させるように設計されています。Apple は、徹底的な社内調査を経て、NVIDIA と協力し、NVIDIA ハードウェアで実行される LLM のパフォーマンスを高速化するために最適化された高度なツールである TensorRT-LLM フレームワーク内に ReDrafter を組み込みました。
重要なのは、ReDrafter は速度を向上させるだけでなく、操作の遅延を減らしながら消費電力を削減することを目指していることです。これは、今日のテクノロジー業界でますます重要な要素となっています。
「この研究は強力な成果を示しましたが、そのより大きな影響は、LLM 推論を加速するために本番環境で適用されたときに生まれます。この進歩を NVIDIA GPU で本番環境に対応させるために、NVIDIA と協力し、ReDrafter を NVIDIA TensorRT-LLM 推論加速フレームワークに統合しました。」
TensorRT-LLM は多数のオープンソース LLM と Medusa 投機的デコード方式をサポートしていますが、ReDrafter のビーム検索およびツリー アテンション アルゴリズムは、以前のアプリケーションでは使用されたことのない演算子に依存しています。ReDrafter の統合を可能にするために、NVIDIA は新しい演算子を追加したり、既存の演算子を公開したりしました。これにより、洗練されたモデルとデコード方式に対応する TensorRT-LLM の機能が大幅に向上しました。NVIDIA GPU を使用する ML 開発者は、TensorRT-LLM を使用した実稼働 LLM アプリケーションで、ReDrafter の高速トークン生成のメリットを簡単に享受できるようになりました。
NVIDIA GPU 上で数百億のパラメータ生成モデルをベンチマークし、ReDrafter と NVIDIA TensorRT-LLM 推論アクセラレーション フレームワークを使用したところ、貪欲なデコードで 1 秒あたりに生成されるトークンの速度が 2.7 倍向上しました。これらのベンチマーク結果は、このテクノロジによってユーザーが経験する可能性のある遅延が大幅に短縮されると同時に、使用する GPU の数と消費電力も削減できることを示しています。」
このコラボレーションは、Apple と NVIDIA の、たとえ脆弱ではあっても潜在的な提携を意味し、テクノロジー企業が相互の利益を原動力に築くことが多いパートナーシップを彷彿とさせます。しかし、両社の間には歴史的に緊張関係が続いているため、正式なパートナーシップが継続する可能性は低いでしょう。このような一時的なコラボレーションが再び浮上する可能性はありますが、長期的な提携の可能性は低いようです。
詳細については、Apple のオリジナル ニュースリリースをご覧ください: Apple の公式ブログ。
さらに、この包括的な記事「Wccftech の報道」にも洞察が記載されています。
コメントを残す