NVIDIA a dévoilé son modèle d’IA ouverte de pointe, le Neomotron 3 Nano Omni, qui affiche une augmentation impressionnante de 9 fois du débit d’IA agentique.
NVIDIA enrichit son catalogue de modèles Open AI avec Neomotron 3 Nano Omni, offrant des performances exceptionnelles multipliées par 9.
Résumé du communiqué de presse : NVIDIA lance aujourd’hui Nemotron 3 Nano Omni, un modèle multimodal polyvalent qui centralise les fonctionnalités pour différents formats, notamment la vidéo, l’audio, les images et le texte. Ce modèle avancé permet aux entreprises et aux développeurs de créer des agents d’IA multimodaux performants et précis, offrant une grande flexibilité et un contrôle accru lors du déploiement.
Le Nemotron 3 Nano Omni repousse les limites de l’efficacité pour les modèles multimodaux ouverts, offrant une précision inégalée à moindre coût. Ce modèle a surpassé de nombreux tests de référence, se classant en tête de six palmarès dédiés à l’analyse de documents complexes et à la compréhension audio-vidéo.

Des entreprises de premier plan dans le domaine de l’IA et des logiciels, telles qu’Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir et Pyler, exploitent déjà les capacités du Nemotron 3 Nano Omni. Par ailleurs, d’autres sociétés comme Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle et Zefr évaluent activement ce modèle pour leurs applications.
Transformer les agents multimodaux : comment Nemotron 3 Nano Omni accélère l’efficacité
Nemotron 3 Nano Omni utilise une architecture hybride combinant différents experts, intégrant des encodeurs vidéo et audio dans son système 30B-A3B. Cette combinaison stratégique élimine le besoin de modèles de perception distincts, améliorant considérablement l’efficacité de l’inférence pour les applications à grande échelle. De ce fait, les systèmes d’IA utilisant ce modèle peuvent atteindre un débit neuf fois supérieur à celui d’autres modèles omnidirectionnels ouverts aux capacités d’interaction similaires. Ces avancées se traduisent par une réduction des coûts opérationnels et une meilleure évolutivité, sans compromis sur la qualité ni la réactivité.
Dans les systèmes multi-agents, le Nemotron 3 Nano Omni s’intègre parfaitement aux modèles cloud propriétaires ou à d’autres modèles NVIDIA Nemotron, notamment le Nemotron 3 Super pour les tâches à haute fréquence et le Nemotron 3 Ultra pour les tâches de planification complexes. Cette polyvalence facilite le développement de sous-agents au sein de flux de travail impliquant l’utilisation d’ordinateurs, l’analyse documentaire et le raisonnement audiovisuel.
- Agents d’utilisation d’ordinateurs — Le Nemotron 3 Nano Omni améliore la boucle de perception des agents interagissant avec les interfaces graphiques, leur permettant de raisonner efficacement sur le contenu affiché à l’écran. Par exemple, l’agent d’utilisation d’ordinateurs innovant de H Company exploite une résolution native de 1920 × 1080 pixels pour offrir un raisonnement visuel supérieur. Les premiers tests réalisés avec le benchmark OSWorld démontrent une amélioration significative de la navigation dans les interfaces graphiques complexes, grâce à la capacité du modèle à traiter des images haute résolution.
- Intelligence documentaire — Cette fonctionnalité permet aux agents d’interpréter des documents, des graphiques, des tableaux, des captures d’écran et des contenus multimédias, facilitant ainsi un raisonnement cohérent entre les structures visuelles et le contenu textuel. Elle est essentielle pour l’analyse d’entreprise et les processus de conformité.
- Compréhension audio et vidéo — Le Nemotron 3 Nano Omni excelle dans la préservation du contexte audio-vidéo, un atout essentiel pour le service client, la recherche et les applications de surveillance. Sa capacité à intégrer les informations vocales et visuelles dans un cadre de raisonnement cohérent élimine le besoin de résumés fragmentés.
Laisser un commentaire