NVIDIA ottimizza Gemma LLM di Google per acceleratori AI e PC RTX AI

NVIDIA ha recentemente accelerato gli sviluppi nell’ottimizzazione degli LLM standard del settore con le sue GPU RTX basate sull’intelligenza artificiale, poiché l’azienda ora migliora il modello Gemma all’avanguardia di Google.

NVIDIA migliora TensorRT-LLM e molteplici risorse software per fornire prestazioni convenienti con le sue GPU AI e RTX

[ Comunicato stampa ]: NVIDIA, in collaborazione con Google, ha lanciato oggi le ottimizzazioni su tutte le piattaforme AI NVIDIA per Gemma, i nuovi modelli di linguaggio aperto leggeri e all’avanguardia di Google da 2 miliardi e 7 miliardi di parametri che possono essere eseguiti ovunque, ridurre i costi e accelerare il lavoro innovativo per casi d’uso specifici del dominio.

I team delle aziende hanno lavorato a stretto contatto per accelerare le prestazioni di Gemma, basato sulla stessa ricerca e tecnologia utilizzata per creare i modelli Gemini, con NVIDIA TensorRT-LLM, una libreria open source per l’ottimizzazione dell’inferenza di modelli linguistici di grandi dimensioni, durante l’esecuzione su NVIDIA GPU nel data center, nel cloud e su PC con GPU NVIDIA RTX.

Ciò consente agli sviluppatori di rivolgersi alla base installata di oltre 100 milioni di GPU NVIDIA RTX disponibili nei PC AI ad alte prestazioni a livello globale.

Gli sviluppatori possono anche eseguire Gemma su GPU NVIDIA nel cloud, comprese le istanze A3 di Google Cloud basate sulla GPU H100 Tensor Core e presto anche sulle GPU NVIDIA H200 Tensor Core, dotate di 141 GB di memoria HBM3e a 4,8 terabyte al secondo, che Google distribuirà in questo modo. anno.

Gli sviluppatori aziendali possono inoltre sfruttare il ricco ecosistema di strumenti NVIDIA, tra cui NVIDIA AI Enterprise con il framework NeMo e TensorRT-LLM, per ottimizzare Gemma e distribuire il modello ottimizzato nella loro applicazione di produzione.

Gemma viene a chattare con RTX

Aggiungerà presto il supporto per Gemma Chat with RTX , una demo tecnologica NVIDIA che utilizza la generazione aumentata di recupero e il software TensorRT-LLM per offrire agli utenti funzionalità di intelligenza artificiale generativa sui loro PC Windows locali basati su RTX. Chat con RTX consente agli utenti di personalizzare un chatbot con i propri dati collegando facilmente i file locali su un PC a un modello linguistico di grandi dimensioni.

Fonte notizia: blog NVIDIA