La startup Taalas ha surgido como pionera en abordar los problemas de latencia de respuesta y rendimiento asociados con los modelos de lenguaje grandes (LLM) al desarrollar de manera única hardware dedicado que «conecta» eficazmente los modelos de IA al silicio.
Mejoras innovadoras en el rendimiento y la rentabilidad del LLM
En el panorama actual de la computación de IA, la latencia se ha convertido en una limitación crítica para los proveedores, ya que la eficiencia en términos de tokens por segundo (TPS) es fundamental para lograr una rápida finalización de tareas. Si bien la integración de SRAM es un enfoque potencial, explorado por empresas como Cerebras y Groq, Taalas ha decidido tomar un camino diferente. Están cambiando su enfoque de la computación de propósito general a aprovechar los ASIC diseñados específicamente para LLM.
Fundada hace dos años y medio, Taalas desarrolló una plataforma para transformar cualquier modelo de IA en silicio personalizado. Desde el momento en que se recibe un modelo inédito, se puede implementar en hardware en tan solo dos meses. Los modelos Hardcore resultantes son mucho más rápidos, económicos y de menor consumo que las implementaciones basadas en software.
– Talas
La estrategia de Taalas se basa en dos principios clave. En primer lugar, se centran en la especialización de las cargas de trabajo de IA directamente a nivel de hardware. Esto implica mapear redes neuronales específicas de los LLM directamente al silicio para optimizar la infraestructura adaptada a cada modelo. El segundo principio implica la fusión del almacenamiento y la computación, lo que busca abordar las limitaciones de memoria y reducir la sobrecarga de comunicación de datos que suele encontrarse en los sistemas de propósito general.

Con el enfoque innovador adoptado por Taalas, todos los cálculos se ejecutan a lo que ellos denominan densidad de «nivel DRAM», lo que mejora significativamente la velocidad de intercomunicación. Esta innovación es la principal razón por la que Taalas ha neutralizado eficazmente los problemas de latencia observados con los LLM. A diferencia de los métodos tradicionales, que suelen depender de refrigeración avanzada, memoria de alto ancho de banda (HBM) e integraciones complejas, los avances de Taalas están profundamente arraigados en la ingeniería del silicio.
La empresa ha presentado su primer producto, el HC1, que incorpora el sistema de gestión de la carga de trabajo Llama 3.1 8B de Meta. Las métricas de rendimiento de este modelo son impresionantemente altas, mostrando un TPS 10 veces superior al de las infraestructuras de alta gama existentes, a la vez que logra una notable reducción de 20 veces en los costos de producción.

Si bien estos avances parecen resolver los problemas de latencia y rendimiento, es fundamental analizar detenidamente las especificaciones técnicas del HC1. El chip está basado en el nodo de 6 nm de TSMC y tiene un tamaño de hasta 815 mm², comparable al del chip H100 de NVIDIA. Admite un modelo de ocho mil millones de parámetros, aunque los principales LLM actuales están escalando hacia un billón de parámetros. Por lo tanto, Taalas sigue necesitando apremiantemente perfeccionar su estrategia de silicio.
Escalar el rendimiento de forma eficaz probablemente requerirá un enfoque basado en clústeres. Según informes, Taalas lo ha implementado con éxito con el R1 de DeepSeek, alcanzando la impresionante cifra de 12 000 TPS por usuario en una configuración de 30 chips. Sin embargo, el principal reto de cara al futuro reside en la adopción en el mercado y el desarrollo de un modelo de negocio viable que se ajuste a su enfoque único en hardware. Si bien la especificidad de sus soluciones cableadas puede limitar la flexibilidad para varios LLM, las mejoras en velocidad y rendimiento justifican la ambiciosa estrategia de Taalas.
Deja una respuesta