A Intel finalmente “abriu o código-fonte” de sua biblioteca de aceleração NPU, permitindo que desenvolvedores e entusiastas ajustem seus aplicativos para funcionarem melhor com os mecanismos de IA da Intel.
O código aberto de bibliotecas NPU da Intel revela que os mecanismos de IA dedicados têm um grande futuro pela frente
A notícia vem do Tech Evangelist da Intel, Tony Mongkolsmai, que divulgou a nova biblioteca de código aberto da empresa em primeiro lugar.
Com esta etapa, a biblioteca de aceleração NPU ajudará os desenvolvedores a se beneficiarem dos NPUs existentes em linhas de CPU, como a série Meteor Lake “Core Ultra” . Ele é baseado em Python e simplifica o desenvolvimento, fornecendo uma interface de alto nível e suporta estruturas populares como TensorFlow e PyTorch, dando aos desenvolvedores o poder de aproveitar os recursos da biblioteca para tornar as tarefas relacionadas à IA mais eficientes.
Para os desenvolvedores que estão perguntando, confira a biblioteca Intel NPU Acceleration de código aberto recentemente. Acabei de experimentar em minha máquina MSI Prestige 16 AI Evo (desta vez Windows, mas a biblioteca também suporta Linux) e seguindo a documentação do GitHub consegui executar o TinyLlama… pic.twitter.com/UPMujuKGGT
-Tony Mongkolsmai (@tonymongkolsmai) 1º de março de 2024
Tony estava executando a biblioteca de aceleração NPU em um laptop MSI Prestige 16 AI Evo, que possui CPUs Intel Core Ultra. Ele poderia executar os modelos TinyLlama e Gemma-2b-it LLM na máquina sem interrupções de desempenho, indicando o potencial cativado nos NPUs da Intel e como eles promovem um ambiente de IA de ponta para os desenvolvedores. Aqui está como a própria equipe de desenvolvimento da Intel descreve a biblioteca:
A Intel NPU Acceleration Library é uma biblioteca Python projetada para aumentar a eficiência de seus aplicativos, aproveitando o poder da Unidade de Processamento Neural (NPU) da Intel para realizar cálculos de alta velocidade em hardware compatível.
Em nossa busca para melhorar significativamente o desempenho da biblioteca, estamos direcionando nossos esforços para a implementação de uma série de recursos importantes, incluindo:
- Quantização de 8 bits
- Quantização de 4 bits e GPTQ
- Inferência de precisão mista NPU-Native
- Suporte Float16
- BFloat16 (formato de ponto flutuante do cérebro)
torch.compile
apoiar- Implementação de fusão horizontal LLM MLP
- Inferência de forma estática
- Inferência MHA NPU
- Heterocomputação NPU/GPU
- Papel
É ótimo ver o código aberto da biblioteca de aceleração NPU, pois isso levaria, em última análise, a uma implementação aprimorada de aplicativos de IA executados nos mecanismos de IA dedicados da Intel. Será interessante ver que tipo de desenvolvimento veremos nesses motores no futuro, já que, como afirma o próprio Tony, há muita coisa para consumidores e desenvolvedores.
Fonte de notícias: Tony Mongkolsmai
Deixe um comentário