Gli ultimi modelli multimodali Llama 3.2 di Meta lanciati su Microsoft Azure e Google Cloud

Al Connect 2024 , il fondatore e CEO di Meta Mark Zuckerberg ha annunciato il debutto di Llama 3.2 . Questa nuova versione introduce modelli di linguaggio di grandi dimensioni (LLM) con parametri 11B e 90B , insieme a una selezione di modelli solo testo sul dispositivo (parametri 1B e 3B). In particolare, i nuovi modelli di visione 11B e 90B rappresentano l’iniziativa inaugurale di Llama nelle capacità multimodali.

Microsoft ha anche annunciato che i modelli Llama 3.2 11B Vision Instruct e Llama 3.2 90B Vision Instruct sono ora accessibili nel catalogo dei modelli AI di Azure . Inoltre, presto gli sviluppatori potranno aspettarsi l’inferenza tramite API serverless Models-as-a-Service (MaaS) per questi modelli migliorati.

I modelli Llama 3.2 disponibili per l’inferenza di elaborazione gestita su Azure includono:

Fiamma 3.2 1B

Lama 3.2 3B

Llama 3.2-1B-Istruzione

Lama 3.2-3B-Istruzione

Guardia lama 3 1B

Llama 3.2 11B Visione Istruzione

Llama 3.2 90B Vision Istruzione

Guardia lama 3 11B Visione

Attualmente, la messa a punto è offerta solo per i modelli Llama 3.2 1B Instruct e 3B Instruct. Tuttavia, Microsoft sta pianificando di espandere le capacità di messa a punto ad altre raccolte di modelli Llama 3.2 nei prossimi mesi. Questi modelli operano con un limite di 200k token al minuto e 1k richieste al minuto . Gli sviluppatori che richiedono un limite di velocità più elevato sono incoraggiati a contattare il team Microsoft per potenziali modifiche.

Inoltre, Google ha annunciato che tutti i modelli Llama 3.2 sono ora disponibili su Vertex AI Model Garden, consentendo l’implementazione self-service. Al momento, solo il modello Llama 3.2 90B è offerto in anteprima tramite la soluzione MaaS di Google.

In concomitanza con i modelli Llama 3.2, Meta ha introdotto le distribuzioni Llama Stack . Queste distribuzioni sono progettate per semplificare il modo in cui gli sviluppatori utilizzano i modelli Llama in vari ambienti, che includono la configurazione a singolo nodo, on-premise, cloud e su dispositivo. Il team Meta ha svelato quanto segue:

Llama CLI (interfaccia a riga di comando) per la creazione, la configurazione e l’esecuzione delle distribuzioni Llama Stack

Codice client disponibile in più linguaggi di programmazione come Python, Node.js, Kotlin e Swift

Contenitori Docker per Llama Stack Distribution Server e Agents API Provider

Una varietà di distribuzioni:

Distribuzione dello stack Llama a nodo singolo tramite implementazione interna Meta e Ollama

Distribuzioni di Cloud Llama Stack tramite AWS, Databricks, Fireworks e Together

Distribuzione di Llama Stack sul dispositivo su iOS implementata utilizzando PyTorch ExecuTorch

Distribuzione Llama Stack in sede supportata da Dell

Il lancio dei modelli Llama 3.2 e delle distribuzioni Llama Stack rappresenta un progresso fondamentale nel migliorare l’accessibilità a modelli AI robusti per gli sviluppatori. Si prevede che questo progresso guiderà una maggiore innovazione e una più ampia adozione dell’AI in vari settori.

Fonte