
Apresentando Gemma 3n: o modelo de IA de próxima geração do Google
O Google revelou o Gemma 3n, um avanço revolucionário em sua série de modelos abertos de IA. Esta nova versão, apresentada durante o evento Google I/O do mês passado, agora está totalmente disponível para desenvolvedores implementarem em seus hardwares locais.
Para quem não conhece a linha Gemma, ela se diferencia dos modelos Gemini, de propriedade do Google. A Gemma foi projetada para ser de código aberto, permitindo que desenvolvedores baixem, modifiquem e inovem livremente, enquanto a Gemini permanece uma plataforma fechada focada em tarefas de alto desempenho.
Principais características do Gemma 3n
A versão mais recente, Gemma 3n, marca uma evolução significativa, pois suporta diversos tipos de entrada, incluindo imagens, áudio e vídeo, para gerar saídas de texto. Essa capacidade multimodal representa uma mudança notável em relação aos modelos anteriores, baseados exclusivamente em texto. Abaixo, estão as principais melhorias introduzidas com este modelo:
- Funcionalidade multimodal: o Gemma 3n integra perfeitamente entradas de texto, imagem, áudio e vídeo, aumentando a versatilidade das interações do usuário.
- Otimização no dispositivo: Duas variantes do modelo, E2B e E4B, otimizadas para eficiência, podem funcionar efetivamente em hardware com memória mínima. Seus parâmetros são de 5 bilhões para E2B e 8 bilhões para E4B, mas operam com um consumo de memória semelhante aos modelos tradicionais, com apenas 2 GB (E2B) e 3 GB (E4B) de RAM.
- Arquitetura inovadora: O núcleo do Gemma 3n apresenta uma arquitetura avançada conhecida como MatFormer, que oferece flexibilidade computacional. Essa estrutura inclui Embeddings por Camada (PLE) para melhor uso da memória, juntamente com novos codificadores de áudio e visão MobileNet-v5, adaptados para aplicações móveis.
- Qualidade superior: o modelo melhora a qualidade da saída, suportando interações multilíngues em 140 idiomas para texto e 35 para tarefas multimodais, além de melhor desempenho em matemática, codificação e raciocínio lógico.
Um aspecto único da eficiência do Gemma 3n reside na sua arquitetura MatFormer. O Google o compara a uma boneca Matryoshka russa, com modelos maiores abrangendo versões menores e totalmente funcionais para se adaptar a diversas tarefas.
Em benchmarks de desempenho, a variante E4B alcançou uma pontuação LMArena superior a 1300, tornando-se o primeiro modelo com menos de 10 bilhões de parâmetros a atingir esse marco.
Recursos avançados de áudio e vídeo
O Gemma 3n apresenta funcionalidades de áudio aprimoradas, incluindo conversão de voz em texto e tradução no dispositivo, com o suporte de um codificador capaz de processamento preciso da fala. O codificador de visão MobileNet-V5 atualizado aumenta significativamente a velocidade de processamento de vídeo, permitindo vídeos em tempo real a até 60 quadros por segundo em dispositivos Google Pixel.
Comece a usar Gemma 3n
Se você estiver ansioso para explorar o Gemma 3n, os modelos podem ser acessados facilmente por meio de plataformas como Hugging Face e Kaggle, bem como no Google AI Studio, onde você pode experimentar seus recursos diretamente.
Para obter detalhes completos sobre este modelo, incluindo guias para desenvolvedores, confira a postagem do anúncio oficial.
Deixe um comentário