M3 Ultra DeepSeek R1: 671 bilhões de parâmetros, 448 GB de memória unificada, alto desempenho de largura de banda abaixo de 200 W, sem necessidade de multi-GPU

M3 Ultra DeepSeek R1: 671 bilhões de parâmetros, 448 GB de memória unificada, alto desempenho de largura de banda abaixo de 200 W, sem necessidade de multi-GPU

No início desta semana, a Apple revelou a mais recente iteração do seu Mac Studio, agora equipado com o chip M3 Ultra de ponta. Este processador inovador não apenas redefine os padrões de desempenho, mas também supera os próprios benchmarks da Apple, apresentando uma configuração impressionante de até 32 núcleos de CPU e uma GPU de 80 núcleos. Esta combinação melhora significativamente as capacidades computacionais e gráficas em relação ao seu antecessor, o M2 Ultra. Além disso, o M3 Ultra demonstrou sua força ao lidar sem esforço com o modelo DeepSeek R1, que ostenta impressionantes 671 bilhões de parâmetros.

Revolucionando o desempenho: os recursos do chip M3 Ultra

O modelo DeepSeek R1, pesando 404 GB, requer memória de alta largura de banda normalmente associada à GPU VRAM. O que diferencia o M3 Ultra da Apple é sua arquitetura de memória unificada, que aloca recursos de forma eficiente, mantendo baixo consumo de energia. Uma análise recente do canal do YouTube Dave2D fornece insights sobre como essa arquitetura eleva o desempenho, especialmente quando comparada a modelos anteriores de silício da Apple.

Em contraste, as configurações tradicionais de PC geralmente necessitam de várias GPUs de ponta para executar com eficiência esses modelos de IA expansivos, aumentando significativamente o uso de energia. No entanto, o chip M3 Ultra opera efetivamente com eficiência muito maior. Isso é atribuído ao seu pool de recursos compartilhados de memória de alta largura de banda, que permite que modelos de IA complexos utilizem recursos de memória de maneira semelhante à VRAM, garantindo assim o desempenho ideal.

Teste de desempenho do chip M3 Ultra da Apple com o modelo DeepSeek R1

É essencial observar que, enquanto modelos menores de IA são executados de forma suave e eficiente sem esgotar todos os recursos, o gigantesco DeepSeek R1 requer a configuração de chip de elite M3 Ultra da Apple, com notáveis ​​512 GB de memória. No entanto, o macOS restringe a alocação padrão de VRAM; portanto, ajustes são necessários — realizados aumentando o limite por meio do Terminal para 448 GB.

Apesar de ser uma versão quantizada de 4 bits que sacrifica alguma precisão, o modelo DeepSeek R1 funciona excelentemente dentro das restrições do M3 Ultra Mac Studio, mantendo seus 671 bilhões de parâmetros. Em termos de consumo de energia, o M3 Ultra se destaca, com todo o sistema consumindo menos de 200 W ao executar este modelo intensivo em recursos. Este requisito de energia é uma pequena fração do que os sistemas multi-GPU tradicionais exigiriam para atingir níveis de desempenho semelhantes, com Dave observando que tais configurações poderiam potencialmente exigir dez vezes o consumo de energia do chip M3 Ultra.

Análise de desempenho do chip M3 Ultra

Curiosamente, o modelo R1 com seus vastos 671 bilhões de parâmetros exibiu desempenho superior em comparação com iterações menores, como o modelo de 70 bilhões de parâmetros, possivelmente devido às eficiências arquitetônicas inerentes ao design do M3 Ultra. No geral, o chip M3 Ultra da Apple surge como um concorrente poderoso, capaz de gerenciar modelos de IA extensivos muito além das expectativas convencionais. Esperamos fornecer mais insights sobre o desempenho e a eficiência deste chip notável, portanto, fique atento para mais atualizações.

Fonte e Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *