A NVIDIA apresentou seu modelo de IA aberta de última geração, o Neomotron 3 Nano Omni, que ostenta um impressionante aumento de 9 vezes na capacidade de processamento de IA Agética.
A NVIDIA expande seu portfólio de modelos de IA aberta com o Neomotron 3 Nano Omni, oferecendo um aumento excepcional de desempenho em até 9 vezes.
Resumo do comunicado de imprensa: Hoje marca a estreia do Nemotron 3 Nano Omni da NVIDIA, um modelo multimodal versátil que consolida recursos em diversos formatos, incluindo vídeo, áudio, imagens e texto. Este modelo avançado permite que empresas e desenvolvedores criem agentes de IA multimodais eficientes e precisos, proporcionando ampla flexibilidade e controle para a implementação.
O Nemotron 3 Nano Omni redefine os limites de eficiência para modelos multimodais abertos, alcançando precisão líder a um custo menor. O modelo superou inúmeros benchmarks, liderando seis rankings dedicados à inteligência de documentos complexos e à compreensão de áudio e vídeo.

Empresas líderes em IA e software, como Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir e Pyler, já começaram a aproveitar os recursos do Nemotron 3 Nano Omni. Além disso, outras empresas como Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle e Zefr estão avaliando ativamente o modelo para suas aplicações.
Transformando Agentes Multimodais: Como o Nemotron 3 Nano Omni Acelera a Eficiência
O Nemotron 3 Nano Omni emprega uma arquitetura híbrida de combinação de especialistas, integrando codificadores de visão e áudio em seu sistema 30B-A3B. Essa combinação estratégica elimina a necessidade de modelos de percepção separados, aprimorando significativamente a eficiência da inferência em aplicações de grande escala. Como resultado, os sistemas de IA que utilizam esse modelo podem atingir uma taxa de transferência 9 vezes maior em comparação com outros modelos omnidirecionais abertos com capacidades de interação semelhantes. Esses avanços se traduzem em custos operacionais reduzidos e maior escalabilidade sem comprometer a qualidade ou a capacidade de resposta.
Em sistemas com agentes, o Nemotron 3 Nano Omni pode ser integrado perfeitamente a modelos de nuvem proprietários ou a outros modelos NVIDIA Nemotron, incluindo o Nemotron 3 Super para tarefas de alta frequência ou o Nemotron 3 Ultra para tarefas de planejamento complexas. Essa versatilidade facilita o desenvolvimento de subagentes em fluxos de trabalho que envolvem o uso de computadores, inteligência de documentos e raciocínio audiovisual.
- Agentes de Uso de Computadores — O Nemotron 3 Nano Omni aprimora o ciclo de percepção para agentes que interagem com interfaces gráficas de usuário, permitindo que eles raciocinem sobre o conteúdo na tela de forma eficaz. Por exemplo, o inovador agente de uso de computadores da H Company utiliza uma resolução nativa de 1920×1080 pixels para proporcionar um raciocínio visual superior. Testes iniciais usando o benchmark OSWorld demonstram uma melhoria significativa na navegação por interfaces gráficas complexas, beneficiando-se da capacidade do modelo de processar imagens de alta resolução.
- Inteligência de Documentos — Essa funcionalidade permite que os agentes interpretem documentos, gráficos, tabelas, capturas de tela e entradas multimídia, facilitando o raciocínio coerente entre estruturas visuais e conteúdo textual. Tal funcionalidade é crucial para análises empresariais e processos relacionados à conformidade.
- Compreensão de áudio e vídeo — O Nemotron 3 Nano Omni se destaca na manutenção do contexto de áudio e vídeo, crucial para atendimento ao cliente, pesquisa e aplicações de monitoramento. Sua capacidade de integrar informações faladas e visuais em uma estrutura de raciocínio coesa elimina a necessidade de resumos fragmentados.
Deixe um comentário