Taalas: A nova fabricante de chips de IA que integra modelos de IA diretamente no silício para maior velocidade e custo-benefício; resultados iniciais superam as soluções atuais.

Taalas: A nova fabricante de chips de IA que integra modelos de IA diretamente no silício para maior velocidade e custo-benefício; resultados iniciais superam as soluções atuais.

A startup Taalas se destacou como pioneira na resolução de problemas de latência de resposta e desempenho associados a grandes modelos de linguagem (LLMs), desenvolvendo um hardware dedicado que efetivamente “integra” modelos de IA ao silício.

Melhorias inovadoras no desempenho e na relação custo-benefício do LLM

No cenário atual da computação de IA, a latência tornou-se uma limitação crítica para os provedores, já que a eficiência em termos de tokens por segundo (TPS) é fundamental para a conclusão rápida de tarefas. Embora a integração de SRAM seja uma abordagem potencial — explorada por empresas como Cerebras e Groq — a Taalas decidiu seguir um caminho diferente. A empresa está redirecionando seu foco da computação de propósito geral para o uso de ASICs especificamente projetados para LLMs (Laser Learning Machines).

Fundada há 2, 5 anos, a Taalas desenvolveu uma plataforma para transformar qualquer modelo de IA em silício personalizado. A partir do momento em que um modelo inédito é recebido, ele pode ser implementado em hardware em apenas dois meses. Os modelos Hardcore resultantes são uma ordem de magnitude mais rápidos, mais baratos e consomem menos energia do que as implementações baseadas em software.

– Talas

A estratégia da Taalas se baseia em dois princípios fundamentais. Primeiro, o foco está na especialização de cargas de trabalho de IA diretamente no nível do hardware. Isso significa mapear redes neurais específicas de LLMs diretamente no silício para otimizar a infraestrutura sob medida para cada modelo. O segundo princípio envolve a “fusão de armazenamento e computação”, que visa superar as limitações de memória e reduzir a sobrecarga de comunicação de dados frequentemente encontrada em sistemas de uso geral.

Uma placa de processador Taalas HC1, etiquetada como 'Taalas HC1 hard-wired with Llama 3.1.8B model', está em exibição, mostrando seu intrincado projeto de circuito.
Créditos da imagem: Taalas

Com a abordagem inovadora adotada pela Taalas, todos os cálculos são executados no que eles chamam de densidade de “nível DRAM”, aumentando significativamente a velocidade de intercomunicação. Essa inovação é o principal motivo pelo qual a Taalas neutralizou com eficácia os problemas de latência observados em LLMs (memória de longa duração).Ao contrário dos métodos tradicionais, que muitas vezes dependem de resfriamento avançado, memória de alta largura de banda (HBM) e integrações complexas, os avanços da Taalas estão profundamente enraizados na engenharia do silício.

A empresa lançou seu primeiro produto, o HC1, que incorpora o LLM Llama 3.1 8B da Meta. As métricas de desempenho exibidas por este modelo são impressionantemente altas, demonstrando que a Taalas possui um TPS 10 vezes maior em comparação com as infraestruturas de ponta existentes, ao mesmo tempo que alcança uma notável redução de 20 vezes nos custos de produção.

Um gráfico de barras intitulado 'Tokens por Segundo por Usuário' ilustra o desempenho superior do Taalas HC1 em comparação com diversos modelos como o Nvidia H200 e o Nvidia B200.
Créditos da imagem: Taalas

Embora esses avanços aparentemente resolvam os desafios de latência e desempenho, é essencial analisar minuciosamente as especificações técnicas do HC1. O chip é construído no processo de 6 nm da TSMC e possui um tamanho de até 815 mm², comparável ao chip H100 da NVIDIA. Ele suporta um modelo de oito bilhões de parâmetros, embora os principais LLMs (Loading Line Modeling) atuais estejam escalando para um trilhão de parâmetros. Portanto, ainda existe uma necessidade premente da Taalas refinar ainda mais sua estratégia de silício.

Escalar o desempenho de forma eficaz provavelmente exigirá uma abordagem baseada em clusters. A Taalas implementou isso com sucesso no R1 da DeepSeek, alcançando impressionantes 12.000 TPS por usuário em uma configuração de 30 chips. No entanto, o principal desafio daqui para frente reside na adoção pelo mercado e no desenvolvimento de um modelo de negócios viável que esteja alinhado com seu foco exclusivo em hardware. Embora a especificidade de suas soluções dedicadas possa limitar a flexibilidade para diversos LLMs (Loading Learning Machines), os ganhos de velocidade e desempenho justificam a ambiciosa estratégia da Taalas.

Fonte e imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *