NVIDIA optimise le Gemma LLM de Google pour les accélérateurs d’IA et les PC RTX AI

NVIDIA a récemment accéléré les développements dans l’optimisation des LLM standards de l’industrie avec ses GPU RTX infusés d’IA, alors que la société améliore désormais le modèle Gemma de pointe de Google.

NVIDIA améliore TensorRT-LLM et plusieurs ressources logicielles pour offrir des performances rentables avec ses GPU AI et RTX

[ Communiqué de presse ] : NVIDIA, en collaboration avec Google, a lancé aujourd’hui des optimisations sur toutes les plates-formes NVIDIA AI pour Gemma, le nouveau modèle de langage ouvert léger de pointe de Google de 2 milliards et 7 milliards de paramètres qui peut être exécuté n’importe où, réduire les coûts et accélérer le travail d’innovation pour des cas d’utilisation spécifiques à un domaine.

Les équipes des sociétés ont travaillé en étroite collaboration pour accélérer les performances de Gemma — construit à partir des mêmes recherches et technologies utilisées pour créer les modèles Gemini — avec NVIDIA TensorRT-LLM, une bibliothèque open source permettant d’optimiser l’inférence de modèles de langage à grande échelle, lorsqu’elle est exécutée sur NVIDIA. GPU dans le centre de données, dans le cloud et sur les PC équipés de GPU NVIDIA RTX.

Cela permet aux développeurs de cibler la base installée de plus de 100 millions de GPU NVIDIA RTX disponibles dans les PC IA hautes performances dans le monde.

Les développeurs peuvent également exécuter Gemma sur des GPU NVIDIA dans le cloud, y compris sur les instances A3 de Google Cloud basées sur le GPU H100 Tensor Core et bientôt, les GPU H200 Tensor Core de NVIDIA – dotés de 141 Go de mémoire HBM3e à 4,8 téraoctets par seconde – que Google déploiera pour cela. année.

Les développeurs d’entreprise peuvent également profiter du riche écosystème d’outils de NVIDIA, notamment NVIDIA AI Enterprise avec le framework NeMo et TensorRT-LLM, pour affiner Gemma et déployer le modèle optimisé dans leur application de production.

Gemma vient discuter avec RTX

L’ajout prochain de la prise en charge de Gemma est Chat with RTX , une démo technologique NVIDIA qui utilise la génération augmentée par récupération et le logiciel TensorRT-LLM pour offrir aux utilisateurs des capacités d’IA générative sur leurs PC Windows locaux alimentés par RTX. Chat avec RTX permet aux utilisateurs de personnaliser un chatbot avec leurs données en connectant facilement des fichiers locaux sur un PC à un grand modèle de langage.

Source d’actualité : Blog NVIDIA