Aceleradores de IA Intel Gaudi 2 capaces de generar texto con modelos Llama 2 con hasta 70 mil millones de parámetros

Los aceleradores de IA Gaudi 2 de Intel son la alternativa más viable a los chips de NVIDIA y Hugging Face ha demostrado su capacidad de generación de texto utilizando Llama 2.

Aceleradores Intel Gaudi 2 demostrados en generación de texto utilizando LLM Llama 2 de código abierto con hasta 70 mil millones de parámetros

A medida que Intel amplía su ecosistema de software de IA, la empresa se centra en las cargas de trabajo de IA más populares, que incluyen LLM (modelos de lenguajes grandes). El trabajo es posible utilizando Habana Optimum , que sirve como bibliotecas de transformadores y difusores de interfaz y los procesadores Intel Habana Gaudi como Gaudi 2. La compañía ya ha demostrado las capacidades de IA y el rendimiento de sus procesadores Gaudi 2 frente a las GPU A100 de NVIDIA, que son una de las opciones populares en el mercado, pero Gaudi 2 hace un trabajo encomiable al ofrecer un rendimiento más rápido con un TCO competitivo.

Para la última demostración, Hugging Face muestra la facilidad de generar texto con Llama 2 (7b, 13b, 70b) usando el mismo canal Optimum Habana y el acelerador Intel Gaudi 2 AI. El resultado final muestra que el chip Gaudi 2 no solo era capaz de aceptar mensajes únicos o múltiples, sino que era muy fácil de usar y también podía manejar complementos personalizados dentro de scripts.

Con la revolución de la IA generativa (GenAI) en pleno apogeo, la generación de texto con modelos transformadores de código abierto como Llama 2 se ha convertido en la comidilla de la ciudad. Los entusiastas de la IA y los desarrolladores buscan aprovechar las capacidades generativas de dichos modelos para sus propios casos de uso y aplicaciones. Este artículo muestra lo fácil que es generar texto con la familia de modelos Llama 2 (7b, 13b y 70b) usando Optimum Habana y una clase de canalización personalizada: ¡podrá ejecutar los modelos con solo unas pocas líneas de código!

Esta clase de canalización personalizada ha sido diseñada para ofrecer una gran flexibilidad y facilidad de uso. Además, proporciona un alto nivel de abstracción y realiza una generación de texto de un extremo a otro, lo que implica preprocesamiento y posprocesamiento. Hay varias formas de utilizar la canalización: puede ejecutar la run_pipeline.pysecuencia de comandos desde el repositorio de Optimum Habana, agregar la clase de canalización a sus propias secuencias de comandos de Python o inicializar las clases de LangChain con ella.

Presentamos un canal de generación de texto personalizado en el acelerador Intel Gaudi 2 AI que acepta mensajes únicos o múltiples como entrada. Este canal ofrece una gran flexibilidad en términos de tamaño del modelo, así como de parámetros que afectan la calidad de generación de texto. Además, también es muy fácil de usar y de conectar a sus scripts, y es compatible con LangChain.

a través de la cara abrazada

Intel se compromete a acelerar su segmento de IA en los próximos años. Este año, la compañía tiene planes de presentar la tercera versión de Gaudi conocida como Gaudi 3, que se espera que utilice un nodo de proceso de 5 nm y, según se informa, es más rápida que la NVIDIA H100 a un precio significativamente menor. De manera similar, la compañía también planea pasar a un diseño completamente interno con la GPU Falcon Shores de próxima generación que se espera para 2025. La compañía también está abriendo capacidades de inteligencia artificial, como la interfaz Llama 2 con PyTorch, para su nivel de consumidor. GPU Arc Serie A.