Das Startup Taalas hat sich als Vorreiter bei der Bewältigung von Problemen mit Reaktionslatenz und Leistung im Zusammenhang mit großen Sprachmodellen (LLMs) etabliert, indem es auf einzigartige Weise spezielle Hardware entwickelt, die KI-Modelle effektiv in Silizium „festverdrahtet“.
Bahnbrechende Verbesserungen bei der Leistung und Kosteneffizienz des LLM-Programms
Im aktuellen Umfeld der KI-Berechnungen ist die Latenz zu einer kritischen Einschränkung für Anbieter geworden, da die Effizienz in Bezug auf Token pro Sekunde (TPS) für eine schnelle Aufgabenerledigung von entscheidender Bedeutung ist. Während die Integration von SRAM ein möglicher Ansatz ist – der von Unternehmen wie Cerebras und Groq erforscht wird –, hat sich Taalas für einen anderen Weg entschieden. Sie konzentrieren sich nicht mehr auf allgemeine Rechenlösungen, sondern nutzen ASICs, die speziell für LLMs (Low-Level-Mapping) entwickelt wurden.
Taalas wurde vor zweieinhalb Jahren gegründet und entwickelte eine Plattform zur Umsetzung beliebiger KI-Modelle in kundenspezifische Hardware. Vom Eingang eines bisher unbekannten Modells bis zur Hardware-Implementierung vergehen nur zwei Monate. Die so entstehenden Hardcore-Modelle sind um Größenordnungen schneller, kostengünstiger und energieeffizienter als softwarebasierte Lösungen.
– Talas
Die Strategie von Taalas basiert auf zwei Kernprinzipien. Erstens konzentriert sich das Unternehmen auf die Spezialisierung von KI-Workloads direkt auf Hardwareebene. Dies bedeutet, spezifische neuronale Netze aus LLMs direkt auf den Siliziumchip abzubilden, um die für jedes Modell optimierte Infrastruktur zu schaffen. Das zweite Prinzip beinhaltet die „Verschmelzung von Speicher und Rechenleistung“, wodurch Speicherbeschränkungen überwunden und der in Allzwecksystemen häufig auftretende Datenkommunikationsaufwand reduziert werden soll.

Dank des innovativen Ansatzes von Taalas werden alle Berechnungen mit einer sogenannten „DRAM-Level“-Dichte ausgeführt, was die Kommunikationsgeschwindigkeit deutlich erhöht. Diese Innovation ist der Hauptgrund, warum Taalas die bei LLMs auftretenden Latenzprobleme effektiv beseitigt hat. Im Gegensatz zu herkömmlichen Methoden, die oft auf fortschrittlicher Kühlung, High-Bandwidth Memory (HBM) und komplexen Integrationen basieren, sind die Durchbrüche von Taalas tief in die Siliziumtechnologie eingebettet.
Das Unternehmen hat sein erstes Produkt, den HC1, vorgestellt, der mit Metas Llama 3.1 8B LLM ausgestattet ist. Die Leistungskennzahlen dieses Modells sind beeindruckend hoch und demonstrieren Taalas‘ 10-fach höhere Transaktionsgeschwindigkeit (TPS) im Vergleich zu bestehenden High-End-Infrastrukturen bei gleichzeitig bemerkenswerter 20-facher Reduzierung der Produktionskosten.

Obwohl diese Fortschritte die Herausforderungen hinsichtlich Latenz und Leistung scheinbar lösen, ist eine genaue Prüfung der technischen Spezifikationen des HC1 unerlässlich. Der Chip basiert auf TSMCs 6-nm-Fertigungsprozess und hat eine Größe von bis zu 815 mm², vergleichbar mit dem H100-Chip von NVIDIA. Er unterstützt ein Modell mit acht Milliarden Parametern, obwohl die führenden LLMs von heute bereits auf eine Billion Parameter skalieren. Daher besteht für Taalas weiterhin dringender Bedarf, ihre Siliziumstrategie zu optimieren.
Eine effektive Skalierung der Leistung erfordert voraussichtlich einen Cluster-basierten Ansatz. Taalas hat dies Berichten zufolge erfolgreich mit DeepSeeks R1 umgesetzt und beeindruckende 12.000 Transaktionen pro Sekunde (TPS) pro Nutzer in einer 30-Chip-Konfiguration erreicht. Die größte Herausforderung für die Zukunft liegt jedoch in der Markteinführung und der Entwicklung eines tragfähigen Geschäftsmodells, das zu ihrem einzigartigen Hardware-Fokus passt. Obwohl die Spezifität ihrer festverdrahteten Lösungen die Flexibilität für verschiedene LLMs einschränken mag, rechtfertigen die Geschwindigkeits- und Leistungsgewinne die ambitionierte Strategie von Taalas.
Schreibe einen Kommentar