NVIDIA optimiza Gemma LLM de Google para aceleradores de IA y PC RTX AI

NVIDIA ha acelerado recientemente los desarrollos para optimizar los LLM estándar de la industria con sus GPU RTX con inteligencia artificial, a medida que la empresa ahora mejora el modelo Gemma de vanguardia de Google.

NVIDIA mejora TensorRT-LLM y múltiples recursos de software para brindar un rendimiento rentable con sus GPU AI y RTX

[ Comunicado de prensa ]: NVIDIA, en colaboración con Google, lanzó hoy optimizaciones en todas las plataformas de IA de NVIDIA para Gemma, los nuevos modelos de lenguaje abierto ligeros de 2 mil millones y 7 mil millones de parámetros de última generación de Google que se pueden ejecutar en cualquier lugar. reduciendo costos y acelerando el trabajo innovador para casos de uso específicos de dominio.

Los equipos de las empresas trabajaron en estrecha colaboración para acelerar el rendimiento de Gemma, creado a partir de la misma investigación y tecnología utilizada para crear los modelos Gemini, con NVIDIA TensorRT-LLM, una biblioteca de código abierto para optimizar la inferencia de modelos de lenguaje grandes, cuando se ejecuta en NVIDIA. GPU en el centro de datos, en la nube y en PC con GPU NVIDIA RTX.

Esto permite a los desarrolladores apuntar a la base instalada de más de 100 millones de GPU NVIDIA RTX disponibles en PC con IA de alto rendimiento en todo el mundo.

Los desarrolladores también pueden ejecutar Gemma en GPU NVIDIA en la nube, incluidas las instancias A3 de Google Cloud basadas en la GPU H100 Tensor Core y, próximamente, las GPU H200 Tensor Core de NVIDIA, con 141 GB de memoria HBM3e a 4,8 terabytes por segundo, que Google implementará en este año.

Los desarrolladores empresariales también pueden aprovechar el rico ecosistema de herramientas de NVIDIA, incluido NVIDIA AI Enterprise con el marco NeMo y TensorRT-LLM, para ajustar Gemma e implementar el modelo optimizado en su aplicación de producción.

Gemma viene a chatear con RTX

Próximamente se agregará soporte para Gemma Chat with RTX , una demostración técnica de NVIDIA que utiliza generación de recuperación aumentada y el software TensorRT-LLM para brindar a los usuarios capacidades de IA generativa en sus PC Windows locales con tecnología RTX. Chat with RTX permite a los usuarios personalizar un chatbot con sus datos conectando fácilmente archivos locales en una PC a un modelo de lenguaje grande.

Fuente de noticias: Blog de NVIDIA