NVIDIA otimiza Gemma LLM do Google para aceleradores de IA e PCs RTX AI

A NVIDIA acelerou recentemente o desenvolvimento na otimização de LLMs padrão da indústria com suas GPUs RTX com infusão de IA, à medida que a empresa agora aprimora o modelo Gemma de ponta do Google.

NVIDIA aprimora TensorRT-LLM e vários recursos de software para fornecer desempenho econômico com suas GPUs AI e RTX

[ Comunicado de imprensa ]: A NVIDIA, em colaboração com o Google, lançou hoje otimizações em todas as plataformas NVIDIA AI para Gemma – os novos modelos leves de linguagem aberta de última geração do Google com 2 bilhões e 7 bilhões de parâmetros que podem ser executados em qualquer lugar, reduzindo custos e acelerando o trabalho inovador para casos de uso específicos de domínio.

As equipes das empresas trabalharam em estreita colaboração para acelerar o desempenho do Gemma — construído a partir da mesma pesquisa e tecnologia usada para criar os modelos Gemini — com NVIDIA TensorRT-LLM, uma biblioteca de código aberto para otimizar a inferência de modelos de linguagem grande, ao executar em NVIDIA GPUs no data center, na nuvem e em PCs com GPUs NVIDIA RTX.

Isso permite que os desenvolvedores atinjam a base instalada de mais de 100 milhões de GPUs NVIDIA RTX disponíveis em PCs de IA de alto desempenho em todo o mundo.

Os desenvolvedores também podem executar o Gemma em GPUs NVIDIA na nuvem, inclusive nas instâncias A3 do Google Cloud baseadas na GPU H100 Tensor Core e, em breve, nas GPUs H200 Tensor Core da NVIDIA – com 141 GB de memória HBM3e a 4,8 terabytes por segundo – que o Google implantará neste ano.

Os desenvolvedores corporativos também podem aproveitar o rico ecossistema de ferramentas da NVIDIA – incluindo NVIDIA AI Enterprise com a estrutura NeMo e TensorRT-LLM – para ajustar o Gemma e implantar o modelo otimizado em seu aplicativo de produção.

Gemma vindo para conversar com RTX

Adicionando suporte para Gemma em breve está Chat with RTX , uma demonstração de tecnologia NVIDIA que usa geração aumentada de recuperação e software TensorRT-LLM para fornecer aos usuários recursos de IA generativos em seus PCs Windows locais com RTX. O Chat with RTX permite que os usuários personalizem um chatbot com seus dados, conectando facilmente arquivos locais em um PC a um modelo de linguagem grande.

Fonte de notícias: Blog da NVIDIA