Apple hat im Bereich der generativen KI einen besonderen Weg eingeschlagen und sich dafür entschieden, für Cloud-basierte Anwendungen sein proprietäres Silizium zu verwenden, anstatt sich auf NVIDIA-GPUs zu verlassen. Diese strategische Entscheidung wird sich voraussichtlich mit der Einführung des kommenden M4 Ultra-Chips weiterentwickeln, der die Verarbeitungskapazitäten für Large Language Models (LLMs) verbessern soll. Vor kurzem hat Apple jedoch seine Bereitschaft signalisiert, mit NVIDIA zusammenzuarbeiten, um Textgenerierungsprozesse mithilfe von LLMs zu beschleunigen, was das Synergiepotenzial zwischen den beiden Technologiegiganten zeigt.
Einführung von „ReDrafter“: Ein Wendepunkt in der Textgenerierung
Apple hat kürzlich eine innovative Technik namens „ReDrafter“ (kurz für Recurrent Drafter) vorgestellt, die einen neuen Maßstab in der Textgenerierungstechnologie setzt. Diese Methode integriert auf raffinierte Weise zwei unterschiedliche Ansätze: Beam Search und Tree Attention. Beide Strategien sind darauf ausgelegt, die Leistung bei der Textgenerierung zu verbessern. Nach umfangreichen internen Untersuchungen hat Apple gemeinsam mit NVIDIA daran gearbeitet, ReDrafter in das TensorRT-LLM-Framework einzubetten, ein hochentwickeltes Tool, das für die Beschleunigung der Leistung von LLMs auf NVIDIA-Hardware optimiert ist.
Wichtig ist, dass ReDrafter nicht nur auf eine höhere Geschwindigkeit ausgelegt ist, sondern auch darauf abzielt, die Betriebslatenz zu verringern und gleichzeitig weniger Energieverbrauch zu erzielen – ein zunehmend wichtiger Faktor in der heutigen Technologielandschaft.
„Diese Forschungsarbeit hat starke Ergebnisse gezeigt, aber ihre größere Wirkung entfaltet sich durch die Anwendung in der Produktion zur Beschleunigung der LLM-Inferenz. Um diesen Fortschritt für NVIDIA-GPUs produktionsreif zu machen, haben wir mit NVIDIA zusammengearbeitet, um ReDrafter in das NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframework zu integrieren.
Obwohl TensorRT-LLM zahlreiche Open-Source-LLMs und die spekulative Dekodierungsmethode Medusa unterstützt, basieren die Beam-Search- und Tree-Attention-Algorithmen von ReDrafter auf Operatoren, die in früheren Anwendungen nie verwendet wurden. Um die Integration von ReDrafter zu ermöglichen, hat NVIDIA neue Operatoren hinzugefügt oder vorhandene freigelegt, was die Fähigkeit von TensorRT-LLM, anspruchsvolle Modelle und Dekodierungsmethoden zu unterstützen, erheblich verbessert hat. ML-Entwickler, die NVIDIA-GPUs verwenden, können jetzt problemlos von der beschleunigten Token-Generierung von ReDrafter für ihre Produktions-LLM-Anwendungen mit TensorRT-LLM profitieren.
Beim Benchmarking eines Produktionsmodells mit mehreren zehn Milliarden Parametern auf NVIDIA-Grafikprozessoren unter Verwendung des NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframeworks mit ReDrafter haben wir eine 2,7-fache Beschleunigung der generierten Token pro Sekunde für die Greedy-Decodierung festgestellt. Diese Benchmark-Ergebnisse deuten darauf hin, dass diese Technologie die Latenzzeiten, die Benutzer möglicherweise erleben, erheblich reduzieren kann, während gleichzeitig weniger Grafikprozessoren verwendet und weniger Strom verbraucht wird.“
Diese Zusammenarbeit deutet auf eine mögliche, wenn auch dürftige Allianz zwischen Apple und NVIDIA hin, die an die Partnerschaften erinnert, die Technologieunternehmen oft aus gemeinsamen Interessen heraus eingehen. Die anhaltenden historischen Spannungen zwischen den beiden Unternehmen lassen jedoch Zweifel an der Wahrscheinlichkeit einer dauerhaften formellen Partnerschaft aufkommen. Zwar könnten vorübergehende Kooperationen wie diese wieder auftauchen, aber die Aussicht auf eine langfristige Allianz scheint unwahrscheinlich.
Weitere Einzelheiten finden Sie in der ursprünglichen Pressemitteilung von Apple: Offizielles Blog von Apple .
Darüber hinaus finden Sie in diesem umfassenden Artikel weitere Einblicke: Wccftech’s Coverage .
Schreibe einen Kommentar