Google lanza Gemma 3n, un innovador modelo de IA para plataformas móviles

Presentamos Gemma 3n: el modelo de IA de próxima generación de Google

Google ha presentado Gemma 3n, un avance revolucionario en su serie de modelos abiertos de IA. Esta nueva versión, presentada durante el evento Google I/O del mes pasado, ya está completamente disponible para que los desarrolladores la implementen en su hardware local.

Para quienes no estén familiarizados con la línea Gemma, esta se distingue de los modelos Gemini, propiedad de Google. Gemma está diseñada para ser de código abierto, lo que permite a los desarrolladores descargar, modificar e innovar libremente, mientras que Gemini sigue siendo una plataforma cerrada enfocada en tareas de alto rendimiento.

Características principales de Gemma 3n

La última versión, Gemma 3n, marca una evolución significativa, ya que admite diversos tipos de entrada, como imágenes, audio y vídeo, para generar salidas de texto. Esta capacidad multimodal representa un cambio notable respecto a los modelos anteriores basados exclusivamente en texto. A continuación, se presentan las mejoras más destacadas introducidas con este modelo:

Funcionalidad multimodal: Gemma 3n integra perfectamente entradas de texto, imagen, audio y vídeo, mejorando la versatilidad de las interacciones del usuario.
Optimización en el dispositivo: Dos variantes del modelo, E2B y E4B, optimizadas para la eficiencia, pueden funcionar eficazmente en hardware con memoria mínima. Sus parámetros son de 5 mil millones para E2B y 8 mil millones para E4B; sin embargo, operan con un consumo de memoria similar al de los modelos tradicionales, con solo 2 GB (E2B) y 3 GB (E4B) de RAM.
Arquitectura innovadora: El núcleo de Gemma 3n se compone de una arquitectura avanzada conocida como MatFormer, que ofrece flexibilidad computacional. Esta estructura incluye incrustaciones por capa (PLE) para un mejor uso de la memoria, junto con nuevos codificadores de audio y visión MobileNet-v5 diseñados para aplicaciones móviles.
Calidad superior: el modelo mejora la calidad de la salida, admitiendo interacciones multilingües en 140 idiomas para texto y 35 para tareas multimodales, junto con un rendimiento mejorado en matemáticas, codificación y razonamiento lógico.

Un aspecto único de la eficiencia de Gemma 3n reside en su arquitectura MatFormer. Google la compara con una muñeca rusa Matryoshka, con modelos más grandes que incluyen versiones más pequeñas y completamente funcionales para adaptarse a diversas tareas.

En cuanto a los puntos de referencia de rendimiento, la variante E4B logró notablemente una puntuación LMArena superior a 1300, lo que la convierte en el primer modelo con menos de 10 mil millones de parámetros en alcanzar este hito. Actuación de Gemma 3n en LMArena

Capacidades audiovisuales avanzadas

Gemma 3n presenta funciones de audio mejoradas, como la conversión de voz a texto y la traducción en el dispositivo, gracias a un codificador capaz de procesar el habla con precisión. El codificador de visión MobileNet-V5 actualizado aumenta significativamente la velocidad de procesamiento de vídeo, permitiendo grabar vídeo en tiempo real a una velocidad de hasta 60 fotogramas por segundo en dispositivos Google Pixel.

Comience con Gemma 3n

Si estás ansioso por explorar Gemma 3n, los modelos son fácilmente accesibles a través de plataformas como Hugging Face y Kaggle, así como en Google AI Studio, donde puedes experimentar con sus capacidades directamente.

Para obtener detalles completos sobre este modelo, incluidas guías para desarrolladores, consulte la publicación del anuncio oficial.

Fuente e imágenes