Apple ha tomado un camino distintivo en el ámbito de la IA generativa, al optar por utilizar su silicio patentado para aplicaciones basadas en la nube en lugar de depender de las GPU de NVIDIA. Se prevé que esta decisión estratégica evolucione con la introducción del próximo chip M4 Ultra, que tiene como objetivo mejorar las capacidades de procesamiento de los modelos de lenguaje de gran tamaño (LLM). Sin embargo, recientemente Apple ha indicado su voluntad de colaborar con NVIDIA para acelerar los procesos de generación de texto mediante LLM, lo que demuestra el potencial de sinergia entre los dos gigantes tecnológicos.
Presentamos ‘ReDrafter’: un punto de inflexión en la generación de texto
Recientemente, Apple presentó una técnica innovadora conocida como «ReDrafter» (abreviatura de Recurrent Drafter), que establece un nuevo punto de referencia en las tecnologías de generación de texto. Este método integra ingeniosamente dos enfoques distintos: búsqueda de haces y atención de árboles. Ambas estrategias están diseñadas para mejorar el rendimiento en la generación de texto. Tras una extensa investigación interna, Apple trabajó junto con NVIDIA para integrar ReDrafter en el marco TensorRT-LLM, una herramienta sofisticada optimizada para acelerar el rendimiento de los LLM que se ejecutan en hardware NVIDIA.
Es importante destacar que ReDrafter no solo está diseñado para mejorar la velocidad, sino que también apunta a reducir la latencia operativa mientras consume menos energía, un factor cada vez más crítico en el panorama tecnológico actual.
“Este trabajo de investigación demostró resultados sólidos, pero su mayor impacto proviene de su aplicación en producción para acelerar la inferencia LLM. Para que este avance esté listo para la producción en las GPU NVIDIA, colaboramos con NVIDIA para integrar ReDrafter en el marco de aceleración de inferencia NVIDIA TensorRT-LLM.
Aunque TensorRT-LLM es compatible con numerosos LLM de código abierto y el método de decodificación especulativa Medusa, los algoritmos de búsqueda de haces y atención de árboles de ReDrafter se basan en operadores que nunca se habían utilizado en aplicaciones anteriores. Para permitir la integración de ReDrafter, NVIDIA agregó nuevos operadores o expuso los existentes, lo que mejoró considerablemente la capacidad de TensorRT-LLM para adaptarse a modelos sofisticados y métodos de decodificación. Los desarrolladores de ML que usan GPU NVIDIA ahora pueden beneficiarse fácilmente de la generación acelerada de tokens de ReDrafter para sus aplicaciones LLM de producción con TensorRT-LLM.
Al realizar una evaluación comparativa de un modelo de producción de parámetros de decenas de miles de millones en GPU NVIDIA, utilizando el marco de aceleración de inferencia NVIDIA TensorRT-LLM con ReDrafter, hemos visto una aceleración de 2,7 veces en los tokens generados por segundo para la decodificación voraz. Estos resultados de evaluación comparativa indican que esta tecnología podría reducir significativamente la latencia que pueden experimentar los usuarios, al mismo tiempo que utiliza menos GPU y consume menos energía”.
Esta colaboración significa una posible, aunque tenue, alianza entre Apple y NVIDIA, que recuerda a las asociaciones que las empresas tecnológicas suelen forjar impulsadas por intereses mutuos. Sin embargo, las tensiones históricas persistentes entre las dos empresas ponen en duda la probabilidad de una asociación formal sostenida. Si bien es posible que resurgieran colaboraciones temporales como esta, la perspectiva de una alianza a largo plazo parece poco probable.
Para más detalles, explora el comunicado de prensa original de Apple: Blog oficial de Apple .
Además, se puede encontrar información en este artículo completo: Cobertura de Wccftech .
Deja una respuesta