Taalas: il nuovo produttore di chip AI che integra modelli AI direttamente nel silicio per una maggiore velocità ed efficienza dei costi; i risultati iniziali superano le soluzioni attuali

Taalas: il nuovo produttore di chip AI che integra modelli AI direttamente nel silicio per una maggiore velocità ed efficienza dei costi; i risultati iniziali superano le soluzioni attuali

La startup Taalas si è affermata come pioniera nell’affrontare i problemi di latenza di risposta e di prestazioni associati ai modelli linguistici di grandi dimensioni (LLM), sviluppando in modo esclusivo hardware dedicato che “cabla” efficacemente i modelli di intelligenza artificiale nel silicio.

Miglioramenti rivoluzionari nelle prestazioni e nell’efficienza dei costi dell’LLM

Nell’attuale panorama del calcolo AI, la latenza è diventata un limite critico per i provider, poiché l’efficienza in termini di token al secondo (TPS) è fondamentale per ottenere un rapido completamento delle attività. Sebbene l’integrazione della SRAM sia un potenziale approccio, esplorato da aziende come Cerebras e Groq, Taalas ha deciso di intraprendere una strada diversa. L’azienda si sta rifocalizzando dall’elaborazione general-purpose all’utilizzo di ASIC specificamente progettati per LLM.

Fondata 2 anni e mezzo fa, Taalas ha sviluppato una piattaforma per trasformare qualsiasi modello di intelligenza artificiale in silicio personalizzato. Dal momento in cui viene ricevuto un modello mai visto prima, può essere realizzato in hardware in soli due mesi. I modelli hardcore risultanti sono di un ordine di grandezza più veloci, più economici e meno energetici rispetto alle implementazioni basate su software.

– Talas

La strategia di Taalas si basa su due principi chiave. In primo luogo, si concentra sulla specializzazione dei carichi di lavoro di intelligenza artificiale direttamente a livello hardware. Ciò significa mappare specifiche reti neurali da LLM direttamente sul silicio per ottimizzare l’infrastruttura su misura per ciascun modello. Il secondo principio prevede la “fusione di storage e calcolo”, che mira ad affrontare i limiti di memoria e a ridurre il sovraccarico di comunicazione dati spesso riscontrato nei sistemi generici.

Viene esposta una scheda processore Taalas HC1 etichettata "Taalas HC1 cablato con modello Llama 3.1.8B", che ne mette in mostra l'intricato design del circuito
Crediti immagine: Taalas

Grazie all’approccio innovativo adottato da Taalas, tutti i calcoli vengono eseguiti a quella che loro chiamano densità “a livello di DRAM”, migliorando significativamente la velocità di intercomunicazione. Questa innovazione è principalmente il motivo per cui Taalas ha neutralizzato efficacemente i problemi di latenza riscontrati con i LLM. A differenza dei metodi tradizionali che spesso dipendono da sistemi di raffreddamento avanzati, memorie ad alta larghezza di banda (HBM) e integrazioni complesse, le innovazioni di Taalas sono profondamente radicate nell’ingegneria del silicio.

L’azienda ha presentato il suo prodotto inaugurale, l’HC1, che incorpora il Llama 3.1 8B LLM di Meta. I parametri prestazionali mostrati da questo modello sono incredibilmente elevati, evidenziando un TPS 10 volte superiore rispetto alle infrastrutture di fascia alta esistenti, ottenendo al contempo una notevole riduzione di 20 volte dei costi di produzione.

Un grafico a barre intitolato "Token al secondo per utente" che illustra le prestazioni di Taalas HC1 rispetto a vari modelli come Nvidia H200 e Nvidia B200
Crediti immagine: Taalas

Sebbene questi progressi sembrino risolvere i problemi di latenza e prestazioni, è essenziale analizzare attentamente le specifiche tecniche dell’HC1. Il chip è basato sul nodo a 6 nm di TSMC e ha una dimensione fino a 815 mm², paragonabile a quella del chip H100 di NVIDIA. Supporta un modello a otto miliardi di parametri, sebbene i principali LLM odierni si stiano avvicinando a mille miliardi di parametri. Pertanto, rimane urgente per Taalas perfezionare ulteriormente la propria strategia in ambito silicio.

Per scalare efficacemente le prestazioni sarà probabilmente necessario un approccio basato su cluster. Taalas ha implementato con successo questo approccio con R1 di DeepSeek, raggiungendo l’impressionante cifra di 12.000 TPS per utente su una configurazione a 30 chip. Tuttavia, la sfida principale per il futuro risiede nell’adozione sul mercato e nello sviluppo di un modello di business sostenibile che sia in linea con la loro esclusiva attenzione all’hardware. Sebbene la specificità delle loro soluzioni cablate possa limitare la flessibilità per vari LLM, i guadagni in termini di velocità e prestazioni giustificano l’ambiziosa strategia di Taalas.

Fonte e immagini

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *