Al Connect 2024 , il fondatore e CEO di Meta Mark Zuckerberg ha annunciato il debutto di Llama 3.2 . Questa nuova versione introduce modelli di linguaggio di grandi dimensioni (LLM) con parametri 11B e 90B , insieme a una selezione di modelli solo testo sul dispositivo (parametri 1B e 3B). In particolare, i nuovi modelli di visione 11B e 90B rappresentano l’iniziativa inaugurale di Llama nelle capacità multimodali.
Microsoft ha anche annunciato che i modelli Llama 3.2 11B Vision Instruct e Llama 3.2 90B Vision Instruct sono ora accessibili nel catalogo dei modelli AI di Azure . Inoltre, presto gli sviluppatori potranno aspettarsi l’inferenza tramite API serverless Models-as-a-Service (MaaS) per questi modelli migliorati.
I modelli Llama 3.2 disponibili per l’inferenza di elaborazione gestita su Azure includono:
- Fiamma 3.2 1B
- Lama 3.2 3B
- Llama 3.2-1B-Istruzione
- Lama 3.2-3B-Istruzione
- Guardia lama 3 1B
- Llama 3.2 11B Visione Istruzione
- Llama 3.2 90B Vision Istruzione
- Guardia lama 3 11B Visione
Attualmente, la messa a punto è offerta solo per i modelli Llama 3.2 1B Instruct e 3B Instruct. Tuttavia, Microsoft sta pianificando di espandere le capacità di messa a punto ad altre raccolte di modelli Llama 3.2 nei prossimi mesi. Questi modelli operano con un limite di 200k token al minuto e 1k richieste al minuto . Gli sviluppatori che richiedono un limite di velocità più elevato sono incoraggiati a contattare il team Microsoft per potenziali modifiche.
Inoltre, Google ha annunciato che tutti i modelli Llama 3.2 sono ora disponibili su Vertex AI Model Garden, consentendo l’implementazione self-service. Al momento, solo il modello Llama 3.2 90B è offerto in anteprima tramite la soluzione MaaS di Google.
In concomitanza con i modelli Llama 3.2, Meta ha introdotto le distribuzioni Llama Stack . Queste distribuzioni sono progettate per semplificare il modo in cui gli sviluppatori utilizzano i modelli Llama in vari ambienti, che includono la configurazione a singolo nodo, on-premise, cloud e su dispositivo. Il team Meta ha svelato quanto segue:
- Llama CLI (interfaccia a riga di comando) per la creazione, la configurazione e l’esecuzione delle distribuzioni Llama Stack
- Codice client disponibile in più linguaggi di programmazione come Python, Node.js, Kotlin e Swift
- Contenitori Docker per Llama Stack Distribution Server e Agents API Provider
- Una varietà di distribuzioni:
- Distribuzione dello stack Llama a nodo singolo tramite implementazione interna Meta e Ollama
- Distribuzioni di Cloud Llama Stack tramite AWS, Databricks, Fireworks e Together
- Distribuzione di Llama Stack sul dispositivo su iOS implementata utilizzando PyTorch ExecuTorch
- Distribuzione Llama Stack in sede supportata da Dell
Il lancio dei modelli Llama 3.2 e delle distribuzioni Llama Stack rappresenta un progresso fondamentale nel migliorare l’accessibilità a modelli AI robusti per gli sviluppatori. Si prevede che questo progresso guiderà una maggiore innovazione e una più ampia adozione dell’AI in vari settori.
Lascia un commento