Taalas: El nuevo fabricante de chips de IA que integra modelos de IA directamente en silicio para mayor velocidad y rentabilidad; los resultados iniciales superan las soluciones actuales.

Taalas: El nuevo fabricante de chips de IA que integra modelos de IA directamente en silicio para mayor velocidad y rentabilidad; los resultados iniciales superan las soluciones actuales.

La startup Taalas ha surgido como pionera en abordar los problemas de latencia de respuesta y rendimiento asociados con los modelos de lenguaje grandes (LLM) al desarrollar de manera única hardware dedicado que «conecta» eficazmente los modelos de IA al silicio.

Mejoras innovadoras en el rendimiento y la rentabilidad del LLM

En el panorama actual de la computación de IA, la latencia se ha convertido en una limitación crítica para los proveedores, ya que la eficiencia en términos de tokens por segundo (TPS) es fundamental para lograr una rápida finalización de tareas. Si bien la integración de SRAM es un enfoque potencial, explorado por empresas como Cerebras y Groq, Taalas ha decidido tomar un camino diferente. Están cambiando su enfoque de la computación de propósito general a aprovechar los ASIC diseñados específicamente para LLM.

Fundada hace dos años y medio, Taalas desarrolló una plataforma para transformar cualquier modelo de IA en silicio personalizado. Desde el momento en que se recibe un modelo inédito, se puede implementar en hardware en tan solo dos meses. Los modelos Hardcore resultantes son mucho más rápidos, económicos y de menor consumo que las implementaciones basadas en software.

– Talas

La estrategia de Taalas se basa en dos principios clave. En primer lugar, se centran en la especialización de las cargas de trabajo de IA directamente a nivel de hardware. Esto implica mapear redes neuronales específicas de los LLM directamente al silicio para optimizar la infraestructura adaptada a cada modelo. El segundo principio implica la fusión del almacenamiento y la computación, lo que busca abordar las limitaciones de memoria y reducir la sobrecarga de comunicación de datos que suele encontrarse en los sistemas de propósito general.

Se muestra una tarjeta de procesador Taalas HC1 etiquetada como 'Taalas HC1 cableado con modelo Llama 3.1.8B', que muestra su intrincado diseño de circuito.
Créditos de la imagen: Taalas

Con el enfoque innovador adoptado por Taalas, todos los cálculos se ejecutan a lo que ellos denominan densidad de «nivel DRAM», lo que mejora significativamente la velocidad de intercomunicación. Esta innovación es la principal razón por la que Taalas ha neutralizado eficazmente los problemas de latencia observados con los LLM. A diferencia de los métodos tradicionales, que suelen depender de refrigeración avanzada, memoria de alto ancho de banda (HBM) e integraciones complejas, los avances de Taalas están profundamente arraigados en la ingeniería del silicio.

La empresa ha presentado su primer producto, el HC1, que incorpora el sistema de gestión de la carga de trabajo Llama 3.1 8B de Meta. Las métricas de rendimiento de este modelo son impresionantemente altas, mostrando un TPS 10 veces superior al de las infraestructuras de alta gama existentes, a la vez que logra una notable reducción de 20 veces en los costos de producción.

Un gráfico de barras titulado "Tokens por segundo por usuario" que ilustra que Taalas HC1 supera a varios modelos como Nvidia H200 y Nvidia B200
Créditos de la imagen: Taalas

Si bien estos avances parecen resolver los problemas de latencia y rendimiento, es fundamental analizar detenidamente las especificaciones técnicas del HC1. El chip está basado en el nodo de 6 nm de TSMC y tiene un tamaño de hasta 815 mm², comparable al del chip H100 de NVIDIA. Admite un modelo de ocho mil millones de parámetros, aunque los principales LLM actuales están escalando hacia un billón de parámetros. Por lo tanto, Taalas sigue necesitando apremiantemente perfeccionar su estrategia de silicio.

Escalar el rendimiento de forma eficaz probablemente requerirá un enfoque basado en clústeres. Según informes, Taalas lo ha implementado con éxito con el R1 de DeepSeek, alcanzando la impresionante cifra de 12 000 TPS por usuario en una configuración de 30 chips. Sin embargo, el principal reto de cara al futuro reside en la adopción en el mercado y el desarrollo de un modelo de negocio viable que se ajuste a su enfoque único en hardware. Si bien la especificidad de sus soluciones cableadas puede limitar la flexibilidad para varios LLM, las mejoras en velocidad y rendimiento justifican la ambiciosa estrategia de Taalas.

Fuente e imágenes

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *