Apple a choisi une voie différente dans le domaine de l’IA générative, en choisissant d’utiliser son silicium propriétaire pour les applications basées sur le cloud plutôt que de s’appuyer sur les GPU NVIDIA. Cette décision stratégique devrait évoluer avec l’introduction de la prochaine puce M4 Ultra, qui vise à améliorer les capacités de traitement des modèles de langage volumineux (LLM). Cependant, Apple a récemment indiqué sa volonté de collaborer avec NVIDIA pour accélérer les processus de génération de texte à l’aide de LLM, démontrant ainsi le potentiel de synergie entre les deux géants de la technologie.
Présentation de « ReDrafter » : une révolution dans la génération de texte
Apple a récemment dévoilé une technique innovante appelée « ReDrafter » (abréviation de Recurrent Drafter) qui établit une nouvelle référence dans les technologies de génération de texte. Cette méthode intègre ingénieusement deux approches distinctes : la recherche par faisceau et l’attention arborescente. Ces deux stratégies sont conçues pour améliorer les performances de génération de texte. Après des recherches internes approfondies, Apple a travaillé aux côtés de NVIDIA pour intégrer ReDrafter dans le framework TensorRT-LLM, un outil sophistiqué optimisé pour accélérer les performances des LLM exécutés sur le matériel NVIDIA.
Il est important de noter que ReDrafter n’est pas seulement conçu pour améliorer la vitesse, mais vise également à réduire la latence opérationnelle tout en consommant moins d’énergie, un facteur de plus en plus critique dans le paysage technologique actuel.
« Ce travail de recherche a montré de bons résultats, mais son impact le plus important vient de son application en production pour accélérer l’inférence LLM. Pour rendre cette avancée prête pour la production pour les GPU NVIDIA, nous avons collaboré avec NVIDIA pour intégrer ReDrafter dans le cadre d’accélération de l’inférence NVIDIA TensorRT-LLM.
Bien que TensorRT-LLM prenne en charge de nombreux LLM open source et la méthode de décodage spéculatif Medusa, les algorithmes de recherche de faisceau et d’attention d’arbre de ReDrafter s’appuient sur des opérateurs qui n’avaient jamais été utilisés dans les applications précédentes. Pour permettre l’intégration de ReDrafter, NVIDIA a ajouté de nouveaux opérateurs ou exposé des opérateurs existants, ce qui a considérablement amélioré la capacité de TensorRT-LLM à prendre en charge des modèles et des méthodes de décodage sophistiqués. Les développeurs ML utilisant des GPU NVIDIA peuvent désormais facilement bénéficier de la génération accélérée de jetons de ReDrafter pour leurs applications LLM de production avec TensorRT-LLM.
En évaluant un modèle de production de plusieurs dizaines de milliards de paramètres sur des GPU NVIDIA, en utilisant le framework d’accélération d’inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7x des jetons générés par seconde pour le décodage gourmand. Ces résultats de référence indiquent que cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent subir, tout en utilisant moins de GPU et en consommant moins d’énergie.
Cette collaboration laisse entrevoir une alliance potentielle, bien que fragile, entre Apple et NVIDIA, qui rappelle les partenariats que les entreprises technologiques nouent souvent en fonction d’intérêts mutuels. Cependant, les tensions historiques persistantes entre les deux entreprises jettent le doute sur la probabilité d’un partenariat formel durable. Si des collaborations temporaires comme celle-ci peuvent refaire surface, la perspective d’une alliance à long terme semble peu probable.
Pour plus de détails, consultez le communiqué de presse original d’Apple : Blog officiel d’Apple .
De plus, des informations peuvent être trouvées dans cet article complet : Couverture de Wccftech .
Laisser un commentaire