Auf der Connect 2024 kündigte Mark Zuckerberg, Gründer und CEO von Meta, das Debüt von Llama 3.2 an . Diese neue Version führt kleine und mittelgroße Vision Large Language Models (LLMs) mit 11B- und 90B-Parametern sowie eine Auswahl geräteinterner Nur-Text-Modelle (1B- und 3B-Parameter) ein. Insbesondere die neuen 11B- und 90B-Vision-Modelle stellen Llamas ersten Vorstoß in den Bereich multimodaler Fähigkeiten dar.
Microsoft hat außerdem angekündigt , dass die Modelle Llama 3.2 11B Vision Instruct und Llama 3.2 90B Vision Instruct jetzt im Azure AI Model Catalog verfügbar sind . Darüber hinaus können Entwickler bald Inferenzen über serverlose Models-as-a-Service (MaaS)-APIs für diese erweiterten Modelle erwarten.
Zu den verfügbaren Llama 3.2-Modellen für verwaltete Compute-Inferenz auf Azure gehören:
- Flamme 3.2 1B
- Lama 3.2 3B
- Lama 3.2-1B-Anweisung
- Lama 3.2-3B-Anweisung
- Lama-Wache 3 1B
- Llama 3.2 11B Sehunterricht
- Llama 3.2 90B Vision-Anweisung
- Lama-Wache 3 11B Sicht
Derzeit wird die Feinabstimmung nur für die Modelle Llama 3.2 1B Instruct und 3B Instruct angeboten. Microsoft plant jedoch, die Feinabstimmungsfunktionen in den kommenden Monaten auf weitere Llama 3.2-Modellsammlungen auszuweiten. Diese Modelle arbeiten mit einem Limit von 200.000 Token pro Minute und 1.000 Anfragen pro Minute . Entwickler, die ein höheres Ratenlimit benötigen, werden gebeten, sich für mögliche Anpassungen an das Microsoft-Team zu wenden.
Darüber hinaus hat Google angekündigt , dass alle Llama 3.2-Modelle jetzt auf Vertex AI Model Garden verfügbar sind und eine Self-Service-Bereitstellung ermöglichen. Derzeit wird nur das Modell Llama 3.2 90B als Vorschau über die MaaS-Lösung von Google angeboten.
In Verbindung mit den Llama 3.2-Modellen hat Meta Llama Stack-Distributionen eingeführt . Diese Distributionen sollen Entwicklern die Nutzung von Llama-Modellen in verschiedenen Umgebungen, darunter Einzelknoten-, lokale, Cloud- und Geräte-Setups, erleichtern. Das Meta-Team hat Folgendes vorgestellt:
- Llama CLI (Befehlszeilenschnittstelle) zum Erstellen, Konfigurieren und Ausführen von Llama Stack-Distributionen
- Clientcode in mehreren Programmiersprachen verfügbar, wie Python, Node.js, Kotlin und Swift
- Docker-Container für Llama Stack Distribution Server und Agents API Provider
- Verschiedene Verteilungen:
- Single-Node-Llama-Stack-Verteilung über die interne Meta-Implementierung und Ollama
- Cloud Llama Stack-Distributionen über AWS, Databricks, Fireworks und Together
- On-Device-Llama-Stack-Verteilung auf iOS, implementiert mit PyTorch ExecuTorch
- Von Dell unterstützte lokale Llama Stack Distribution
Die Einführung von Llama 3.2-Modellen und Llama Stack-Distributionen stellt einen entscheidenden Fortschritt bei der Verbesserung des Zugriffs auf robuste KI-Modelle für Entwickler dar. Dieser Fortschritt dürfte zu mehr Innovation und einer breiteren Einführung von KI in verschiedenen Sektoren führen.
Schreibe einen Kommentar