Intel torna sua biblioteca de aceleração NPU um ativo de código aberto, permitindo que desenvolvedores otimizem aplicativos de IA

Intel torna sua biblioteca de aceleração NPU um ativo de código aberto, permitindo que desenvolvedores otimizem aplicativos de IA

A Intel finalmente “abriu o código-fonte” de sua biblioteca de aceleração NPU, permitindo que desenvolvedores e entusiastas ajustem seus aplicativos para funcionarem melhor com os mecanismos de IA da Intel.

O código aberto de bibliotecas NPU da Intel revela que os mecanismos de IA dedicados têm um grande futuro pela frente

A notícia vem do Tech Evangelist da Intel, Tony Mongkolsmai, que divulgou a nova biblioteca de código aberto da empresa em primeiro lugar.

Com esta etapa, a biblioteca de aceleração NPU ajudará os desenvolvedores a se beneficiarem dos NPUs existentes em linhas de CPU, como a série Meteor Lake “Core Ultra” . Ele é baseado em Python e simplifica o desenvolvimento, fornecendo uma interface de alto nível e suporta estruturas populares como TensorFlow e PyTorch, dando aos desenvolvedores o poder de aproveitar os recursos da biblioteca para tornar as tarefas relacionadas à IA mais eficientes.

Tony estava executando a biblioteca de aceleração NPU em um laptop MSI Prestige 16 AI Evo, que possui CPUs Intel Core Ultra. Ele poderia executar os modelos TinyLlama e Gemma-2b-it LLM na máquina sem interrupções de desempenho, indicando o potencial cativado nos NPUs da Intel e como eles promovem um ambiente de IA de ponta para os desenvolvedores. Aqui está como a própria equipe de desenvolvimento da Intel descreve a biblioteca:

A Intel NPU Acceleration Library é uma biblioteca Python projetada para aumentar a eficiência de seus aplicativos, aproveitando o poder da Unidade de Processamento Neural (NPU) da Intel para realizar cálculos de alta velocidade em hardware compatível.

Em nossa busca para melhorar significativamente o desempenho da biblioteca, estamos direcionando nossos esforços para a implementação de uma série de recursos importantes, incluindo:

  • Quantização de 8 bits
  • Quantização de 4 bits e GPTQ
  • Inferência de precisão mista NPU-Native
  • Suporte Float16
  • BFloat16 (formato de ponto flutuante do cérebro)
  • torch.compileapoiar
  • Implementação de fusão horizontal LLM MLP
  • Inferência de forma estática
  • Inferência MHA NPU
  • Heterocomputação NPU/GPU
  • Papel

através do GithubIntel

É ótimo ver o código aberto da biblioteca de aceleração NPU, pois isso levaria, em última análise, a uma implementação aprimorada de aplicativos de IA executados nos mecanismos de IA dedicados da Intel. Será interessante ver que tipo de desenvolvimento veremos nesses motores no futuro, já que, como afirma o próprio Tony, há muita coisa para consumidores e desenvolvedores.

Fonte de notícias: Tony Mongkolsmai

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *