La start-up Taalas s’est imposée comme pionnière dans la résolution des problèmes de latence de réponse et de performance associés aux grands modèles de langage (LLM) en développant de manière unique un matériel dédié qui « intègre » efficacement les modèles d’IA dans le silicium.
Améliorations révolutionnaires en matière de performance et d’efficacité des coûts des LLM
Dans le contexte actuel du calcul en IA, la latence est devenue une limitation critique pour les fournisseurs, car l’efficacité en termes de jetons par seconde (TPS) est primordiale pour une exécution rapide des tâches. Si l’intégration de SRAM est une approche possible – explorée par des entreprises comme Cerebras et Groq –, Taalas a opté pour une stratégie différente. L’entreprise se recentre sur l’utilisation de circuits intégrés spécifiques (ASIC) conçus pour les LLM, délaissant ainsi le calcul généraliste.
Fondée il y a deux ans et demi, Taalas a développé une plateforme permettant de transformer n’importe quel modèle d’IA en puce sur mesure. Dès réception d’un modèle inédit, celui-ci peut être implémenté matériellement en seulement deux mois. Les modèles Hardcore qui en résultent sont dix fois plus rapides, moins chers et moins énergivores que les implémentations logicielles.
– Talas
La stratégie de Taalas repose sur deux principes clés. Premièrement, elle privilégie la spécialisation des charges de travail d’IA directement au niveau matériel. Cela implique de transposer des réseaux neuronaux spécifiques issus de modèles logiques (LLM) directement sur la puce afin d’optimiser l’infrastructure pour chaque modèle. Le second principe consiste à « fusionner le stockage et le calcul », ce qui vise à pallier les limitations de mémoire et à réduire la surcharge liée à la communication de données souvent rencontrée dans les systèmes généralistes.

Grâce à l’approche novatrice de Taalas, tous les calculs sont exécutés à une densité équivalente à celle de la DRAM, ce qui améliore considérablement la vitesse de communication. Cette innovation explique principalement pourquoi Taalas a réussi à éliminer les problèmes de latence rencontrés avec les LLM. Contrairement aux méthodes traditionnelles qui reposent souvent sur un refroidissement avancé, une mémoire à large bande passante (HBM) et des intégrations complexes, les avancées de Taalas sont intrinsèquement liées à la conception même du silicium.
La société a lancé son premier produit, le HC1, qui intègre le Llama 3.1 8B LLM de Meta. Les performances affichées par ce modèle sont exceptionnelles : Taalas offre un débit de transactions par seconde (TPS) dix fois supérieur aux infrastructures haut de gamme existantes, tout en réduisant considérablement les coûts de production d’un facteur 20.

Bien que ces avancées semblent résoudre les problèmes de latence et de performance, il est essentiel d’examiner attentivement les spécifications techniques du HC1. La puce est gravée en 6 nm par TSMC et sa surface atteint 815 mm², comparable à celle de la puce H100 de NVIDIA. Elle prend en charge un modèle à huit milliards de paramètres, alors que les principaux modèles de latence actuels atteignent près de mille milliards de paramètres. Par conséquent, Taalas a un besoin urgent d’affiner sa stratégie en matière de semi-conducteurs.
Pour optimiser efficacement les performances, une approche par cluster sera probablement nécessaire. Taalas aurait déjà mis en œuvre cette solution avec succès grâce au R1 de DeepSeek, atteignant un débit impressionnant de 12 000 TPS par utilisateur sur une configuration à 30 puces. Cependant, le principal défi à relever réside désormais dans l’adoption par le marché et le développement d’un modèle économique viable, en phase avec leur spécialisation matérielle. Bien que la spécificité de leurs solutions câblées puisse limiter la flexibilité pour différents LLM, les gains de vitesse et de performance justifient la stratégie ambitieuse de Taalas.
Laisser un commentaire