Acceleratori AI Intel Gaudi 2 in grado di generare testo con modelli Llama 2 con parametri fino a 70B

Gli acceleratori AI Gaudi 2 di Intel sono l’alternativa più praticabile ai chip NVIDIA e Hugging Face ha dimostrato la sua capacità di generazione di testo utilizzando Llama 2.

Demo degli acceleratori Intel Gaudi 2 nella generazione di testo utilizzando LLM open source Llama 2 con un massimo di 70 miliardi di parametri

Mentre Intel espande il proprio ecosistema di software AI, l’azienda si rivolge ai carichi di lavoro AI più popolari che includono LLM (Large Language Models). Il lavoro è reso possibile utilizzando Habana Optimum che funge da libreria di trasformatori e diffusori di interfaccia e i processori Intel Habana Gaudi come Gaudi 2. L’azienda ha già dimostrato le capacità di intelligenza artificiale e le prestazioni dei suoi processori Gaudi 2 rispetto alle GPU A100 di NVIDIA, che sono una di queste. delle opzioni più popolari sul mercato, ma Gaudi 2 svolge un lavoro encomiabile offrendo prestazioni più veloci a un TCO competitivo.

Per l’ultima dimostrazione, Hugging Face mostra la facilità di generare testo con Llama 2 (7b, 13b, 70b) utilizzando la stessa pipeline Optimum Habana e l’acceleratore AI Intel Gaudi 2. Il risultato finale mostra che non solo il chip Gaudi 2 era in grado di accettare prompt singoli/multipli, ma era anche molto facile da usare e poteva anche gestire plugin personalizzati all’interno degli script.

Con la rivoluzione dell’intelligenza artificiale generativa (GenAI) in pieno svolgimento, la generazione di testo con modelli di trasformatori open source come Llama 2 è diventata l’argomento di discussione. Gli appassionati di intelligenza artificiale e gli sviluppatori stanno cercando di sfruttare le capacità generative di tali modelli per i propri casi d’uso e applicazioni. Questo articolo mostra quanto sia facile generare testo con la famiglia di modelli Llama 2 (7b, 13b e 70b) utilizzando Optimum Habana e una classe pipeline personalizzata: sarai in grado di eseguire i modelli con solo poche righe di codice!

Questa classe di pipeline personalizzata è stata progettata per offrire grande flessibilità e facilità d’uso. Inoltre, fornisce un elevato livello di astrazione ed esegue la generazione di testo end-to-end che prevede la pre-elaborazione e la post-elaborazione. Esistono diversi modi per utilizzare la pipeline: puoi eseguire lo run_pipeline.pyscript dal repository Optimum Habana, aggiungere la classe pipeline ai tuoi script Python o inizializzare le classi LangChain con essa.

Abbiamo presentato una pipeline di generazione di testo personalizzata sull’acceleratore Intel Gaudi 2 AI che accetta prompt singoli o multipli come input. Questa pipeline offre una grande flessibilità in termini di dimensioni del modello e di parametri che influiscono sulla qualità della generazione del testo. Inoltre, è anche molto facile da usare e da collegare ai tuoi script ed è compatibile con LangChain.

tramite Abbracciare il viso

Intel è impegnata ad accelerare il proprio segmento AI nei prossimi anni. Quest’anno, la società ha in programma di introdurre la terza iterazione di Gaudi nota come Gaudi 3 che dovrebbe utilizzare un nodo di processo a 5 nm e, secondo quanto riferito, è più veloce della NVIDIA H100 a un prezzo significativamente inferiore. Allo stesso modo, l’azienda prevede anche di passare a un design completamente interno con la GPU Falcon Shores di nuova generazione, prevista per il 2025. L’azienda sta inoltre aprendo funzionalità di intelligenza artificiale come l’interfaccia Llama 2 con PyTorch per il suo livello consumer. GPU Arc serie A.