Lors de Connect 2024 , le fondateur et PDG de Meta, Mark Zuckerberg, a annoncé le lancement de Llama 3.2 . Cette nouvelle version introduit des modèles de langage large (LLM) de petite et moyenne taille avec des paramètres 11B et 90B , ainsi qu’une sélection de modèles de texte uniquement sur l’appareil (paramètres 1B et 3B). Les nouveaux modèles de vision 11B et 90B représentent notamment la première incursion de Llama dans les capacités multimodales.
Microsoft a également annoncé que les modèles Llama 3.2 11B Vision Instruct et Llama 3.2 90B Vision Instruct sont désormais accessibles dans le catalogue de modèles Azure AI . En outre, les développeurs pourront bientôt s’attendre à des inférences via des API sans serveur Models-as-a-Service (MaaS) pour ces modèles améliorés.
Les modèles Llama 3.2 disponibles pour l’inférence de calcul gérée sur Azure incluent :
- Flamme 3.2 1B
- Lama 3.2 3B
- Lama 3.2-1B-Instruire
- Lama 3.2-3B-Instruire
- Garde Lama 3 1B
- Lama 3.2 11B Vision Instruct
- Lama 3.2 90B Vision Instruct
- Lama Guard 3 11B Vision
Actuellement, le réglage fin n’est proposé que pour les modèles Llama 3.2 1B Instruct et 3B Instruct. Cependant, Microsoft prévoit d’étendre les capacités de réglage fin à d’autres collections de modèles Llama 3.2 dans les mois à venir. Ces modèles fonctionnent avec une limite de 200 000 jetons par minute et de 1 000 requêtes par minute . Les développeurs nécessitant une limite de débit plus élevée sont encouragés à contacter l’équipe Microsoft pour d’éventuels ajustements.
De plus, Google a annoncé que tous les modèles Llama 3.2 sont désormais disponibles sur Vertex AI Model Garden, permettant un déploiement en libre-service. À l’heure actuelle, seul le modèle Llama 3.2 90B est proposé en avant-première via la solution MaaS de Google.
En conjonction avec les modèles Llama 3.2, Meta a introduit les distributions Llama Stack . Ces distributions sont conçues pour rationaliser la façon dont les développeurs utilisent les modèles Llama dans divers environnements, qui incluent la configuration à nœud unique, sur site, dans le cloud et sur l’appareil. L’équipe Meta a dévoilé les éléments suivants :
- Llama CLI (interface de ligne de commande) pour créer, configurer et exécuter des distributions Llama Stack
- Code client disponible dans plusieurs langages de programmation tels que Python, Node.js, Kotlin et Swift
- Conteneurs Docker pour le serveur de distribution Llama Stack et le fournisseur d’API Agents
- Une variété de distributions :
- Distribution de pile Llama à nœud unique via l’implémentation interne de Meta et Ollama
- Distributions Cloud Llama Stack via AWS, Databricks, Fireworks et Together
- Distribution de Llama Stack sur appareil sur iOS implémentée à l’aide de PyTorch ExecuTorch
- Distribution Llama Stack sur site prise en charge par Dell
Le déploiement des modèles Llama 3.2 et des distributions Llama Stack représente une avancée majeure dans l’amélioration de l’accessibilité des développeurs à des modèles d’IA robustes. Ces progrès devraient favoriser une plus grande innovation et une adoption plus large de l’IA dans divers secteurs.
Laisser un commentaire