Los últimos modelos multimodales Llama 3.2 de Meta se lanzaron en Microsoft Azure y Google Cloud

En Connect 2024 , el fundador y director ejecutivo de Meta, Mark Zuckerberg, anunció el debut de Llama 3.2 . Esta nueva versión presenta modelos de lenguaje de visión grandes (LLM) de tamaño pequeño y mediano con parámetros 11B y 90B , junto con una selección de modelos de solo texto en el dispositivo (parámetros 1B y 3B). En particular, los nuevos modelos de visión 11B y 90B representan la incursión inaugural de Llama en capacidades multimodales.

Microsoft también ha anunciado que los modelos Llama 3.2 11B Vision Instruct y Llama 3.2 90B Vision Instruct ahora están disponibles en el Catálogo de modelos de IA de Azure . Además, pronto los desarrolladores podrán esperar inferencias a través de API sin servidor de modelos como servicio (MaaS) para estos modelos mejorados.

Los modelos Llama 3.2 disponibles para la inferencia de computación administrada en Azure incluyen:

Llama 3.2 1B

Llama 3.2 3B

Llama 3.2-1B-Instruir

Llama 3.2-3B-Instruir

Guardia de llama 3 1B

Llama 3.2 11B Visión Instructora

Llama 3.2 90B Visión Instructora

Llama Guard 3 11B Visión

Actualmente, el ajuste fino solo se ofrece para los modelos Llama 3.2 1B Instruct y 3B Instruct. Sin embargo, Microsoft planea expandir las capacidades de ajuste fino a colecciones de modelos Llama 3.2 adicionales en los próximos meses. Estos modelos operan con un límite de 200k tokens por minuto y 1k solicitudes por minuto . Se recomienda a los desarrolladores que requieran un límite de velocidad más alto que se comuniquen con el equipo de Microsoft para posibles ajustes.

Además, Google ha anunciado que todos los modelos Llama 3.2 ya están disponibles en Vertex AI Model Garden, lo que permite la implementación por cuenta propia. En la actualidad, solo el modelo Llama 3.2 90B se ofrece en versión preliminar a través de la solución MaaS de Google.

Junto con los modelos Llama 3.2, Meta ha presentado las distribuciones Llama Stack . Estas distribuciones están diseñadas para optimizar la forma en que los desarrolladores utilizan los modelos Llama en varios entornos, que incluyen configuraciones de un solo nodo, locales, en la nube y en el dispositivo. El equipo de Meta ha presentado lo siguiente:

CLI de Llama (interfaz de línea de comandos) para crear, configurar y ejecutar distribuciones de Llama Stack

Código de cliente disponible en múltiples lenguajes de programación como Python, Node.js, Kotlin y Swift

Contenedores Docker para el servidor de distribución de pila Llama y el proveedor de API de agentes

Una variedad de distribuciones:

Distribución de pila Llama de un solo nodo a través de la implementación interna de Meta y Ollama

Distribuciones de Cloud Llama Stack a través de AWS, Databricks, Fireworks y Together

Distribución de Llama Stack en el dispositivo iOS implementada usando PyTorch ExecuTorch

Distribución de Llama Stack en las instalaciones con soporte de Dell

El lanzamiento de los modelos Llama 3.2 y las distribuciones de Llama Stack significa un avance fundamental en la mejora de la accesibilidad a modelos de IA robustos para los desarrolladores. Se prevé que este progreso impulse una mayor innovación y una adopción más amplia de la IA en varios sectores.

Fuente