A Apple tomou um caminho distinto no reino da IA Generativa, optando por utilizar seu silício proprietário para aplicativos baseados em nuvem em vez de depender de GPUs NVIDIA. Esta decisão estratégica deve evoluir com a introdução do próximo chip M4 Ultra, que visa aprimorar as capacidades de processamento para Large Language Models (LLMs). Recentemente, no entanto, a Apple indicou uma disposição de colaborar com a NVIDIA para acelerar os processos de geração de texto usando LLMs, mostrando o potencial de sinergia entre os dois gigantes da tecnologia.
Apresentando ‘ReDrafter’: Uma mudança radical na geração de texto
A Apple revelou recentemente uma técnica inovadora conhecida como ‘ReDrafter’ — abreviação de Recurrent Drafter — que define um novo padrão em tecnologias de geração de texto. Este método integra engenhosamente duas abordagens distintas: pesquisa de feixe e atenção de árvore. Ambas as estratégias são projetadas para melhorar o desempenho na geração de texto. Após uma extensa pesquisa interna, a Apple trabalhou junto com a NVIDIA para incorporar o ReDrafter na estrutura TensorRT-LLM, uma ferramenta sofisticada otimizada para acelerar o desempenho de LLMs em execução no hardware NVIDIA.
É importante ressaltar que o ReDrafter não foi projetado apenas para aumentar a velocidade, mas também visa reduzir a latência operacional, consumindo menos energia, um fator cada vez mais crítico no cenário tecnológico atual.
“Este trabalho de pesquisa demonstrou resultados fortes, mas seu maior impacto vem de ser aplicado na produção para acelerar a inferência LLM. Para tornar este avanço pronto para produção para GPUs NVIDIA, colaboramos com a NVIDIA para integrar o ReDrafter na estrutura de aceleração de inferência NVIDIA TensorRT-LLM.
Embora o TensorRT-LLM suporte vários LLMs de código aberto e o método de decodificação especulativa Medusa, os algoritmos de busca de feixe e atenção de árvore do ReDrafter dependem de operadores que nunca foram usados em aplicativos anteriores. Para permitir a integração do ReDrafter, a NVIDIA adicionou novos operadores ou expôs os existentes, o que melhorou consideravelmente a capacidade do TensorRT-LLM de acomodar modelos sofisticados e métodos de decodificação. Os desenvolvedores de ML que usam GPUs NVIDIA agora podem se beneficiar facilmente da geração acelerada de tokens do ReDrafter para seus aplicativos LLM de produção com o TensorRT-LLM.
Ao fazer benchmarking de um modelo de produção de parâmetros de dezenas de bilhões em GPUs NVIDIA, usando a estrutura de aceleração de inferência NVIDIA TensorRT-LLM com ReDrafter, vimos uma aceleração de 2,7x em tokens gerados por segundo para decodificação gananciosa. Esses resultados de benchmark indicam que essa tecnologia pode reduzir significativamente a latência que os usuários podem experimentar, ao mesmo tempo em que usa menos GPUs e consome menos energia.”
Esta colaboração significa uma aliança potencial, embora tênue, entre a Apple e a NVIDIA, que lembra as parcerias que as empresas de tecnologia geralmente criam movidas por interesses mútuos. No entanto, tensões históricas persistentes entre as duas empresas colocam em dúvida a probabilidade de uma parceria formal sustentada. Embora colaborações temporárias como esta possam ressurgir, a perspectiva de uma aliança de longo prazo parece improvável.
Para mais detalhes, explore o comunicado de imprensa original da Apple: Blog oficial da Apple .
Além disso, insights podem ser encontrados neste artigo abrangente: Cobertura da Wccftech .
Deixe um comentário