Apple ha intrapreso un percorso distintivo nel regno dell’intelligenza artificiale generativa, scegliendo di utilizzare il suo silicio proprietario per applicazioni basate su cloud anziché affidarsi alle GPU NVIDIA. Si prevede che questa decisione strategica si evolverà con l’introduzione del prossimo chip M4 Ultra, che mira a migliorare le capacità di elaborazione per i Large Language Model (LLM). Di recente, tuttavia, Apple ha indicato la volontà di collaborare con NVIDIA per accelerare i processi di generazione di testo utilizzando gli LLM, mostrando il potenziale di sinergia tra i due giganti della tecnologia.
Presentazione di “ReDrafter”: un punto di svolta nella generazione di testo
Apple ha recentemente svelato una tecnica innovativa nota come “ReDrafter”, abbreviazione di Recurrent Drafter, che stabilisce un nuovo punto di riferimento nelle tecnologie di generazione di testo. Questo metodo integra ingegnosamente due approcci distinti: beam search e tree attention. Entrambe le strategie sono progettate per migliorare le prestazioni nella generazione di testo. Dopo un’ampia ricerca interna, Apple ha collaborato con NVIDIA per incorporare ReDrafter nel framework TensorRT-LLM, uno strumento sofisticato ottimizzato per accelerare le prestazioni degli LLM in esecuzione su hardware NVIDIA.
È importante sottolineare che ReDrafter non è progettato solo per aumentare la velocità, ma mira anche a ridurre la latenza operativa consumando meno energia, un fattore sempre più critico nel panorama tecnologico odierno.
“Questo lavoro di ricerca ha dimostrato risultati solidi, ma il suo impatto maggiore deriva dall’essere applicato in produzione per accelerare l’inferenza LLM. Per rendere questo progresso pronto per la produzione per le GPU NVIDIA, abbiamo collaborato con NVIDIA per integrare ReDrafter nel framework di accelerazione dell’inferenza NVIDIA TensorRT-LLM.
Sebbene TensorRT-LLM supporti numerosi LLM open source e il metodo di decodifica speculativa Medusa, gli algoritmi di beam search e tree attention di ReDrafter si basano su operatori mai utilizzati in applicazioni precedenti. Per consentire l’integrazione di ReDrafter, NVIDIA ha aggiunto nuovi operatori o ne ha esposti di esistenti, il che ha notevolmente migliorato la capacità di TensorRT-LLM di adattarsi a modelli e metodi di decodifica sofisticati. Gli sviluppatori ML che utilizzano GPU NVIDIA possono ora trarre facilmente vantaggio dalla generazione di token accelerata di ReDrafter per le loro applicazioni LLM di produzione con TensorRT-LLM.
Nel benchmarking di un modello di produzione di parametri di decine di miliardi su GPU NVIDIA, utilizzando il framework di accelerazione dell’inferenza NVIDIA TensorRT-LLM con ReDrafter, abbiamo visto un’accelerazione di 2,7 volte nei token generati al secondo per la decodifica greedy. Questi risultati di benchmark indicano che questa tecnologia potrebbe ridurre significativamente la latenza che gli utenti potrebbero riscontrare, utilizzando anche meno GPU e consumando meno energia.”
Questa collaborazione simboleggia una potenziale, seppur tenue, alleanza tra Apple e NVIDIA, che ricorda le partnership che le aziende tecnologiche spesso stringono spinte da interessi reciproci. Tuttavia, le persistenti tensioni storiche tra le due aziende mettono in dubbio la probabilità di una partnership formale sostenuta. Mentre collaborazioni temporanee come questa potrebbero riemergere, la prospettiva di un’alleanza a lungo termine sembra improbabile.
Per maggiori dettagli, consulta il comunicato stampa originale di Apple: Blog ufficiale di Apple .
Ulteriori approfondimenti sono disponibili in questo articolo completo: Copertura di Wccftech .
Lascia un commento