NVIDIA ha presentato il suo innovativo modello Open AI, il Neomotron 3 Nano Omni, che vanta un impressionante aumento di 9 volte della velocità di elaborazione dell’IA agente.
NVIDIA amplia il portfolio di modelli AI aperti con Neomotron 3 Nano Omni, offrendo un eccezionale incremento delle prestazioni pari a 9 volte.
Sintesi del comunicato stampa: Oggi segna il debutto di NVIDIA Nemotron 3 Nano Omni, un modello multimodale versatile che consolida le funzionalità in vari formati, tra cui video, audio, immagini e testo. Questo modello avanzato consente ad aziende e sviluppatori di creare agenti AI multimodali efficienti e precisi, offrendo ampia flessibilità e controllo per l’implementazione.
Il Nemotron 3 Nano Omni spinge al limite l’efficienza dei modelli multimodali aperti, raggiungendo una precisione di prim’ordine a un costo inferiore. Il modello ha superato numerosi benchmark, posizionandosi al primo posto in sei classifiche dedicate all’analisi di documenti complessi e alla comprensione di contenuti audio-video.

Aziende leader nel settore dell’intelligenza artificiale e del software, come Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir e Pyler, hanno già iniziato a sfruttare le capacità del Nemotron 3 Nano Omni. Inoltre, altre aziende come Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle e Zefr stanno valutando attivamente il modello per le proprie applicazioni.
Trasformare gli agenti multimodali: come Nemotron 3 Nano Omni accelera l’efficienza
Nemotron 3 Nano Omni impiega un’architettura ibrida “mix of expert”, integrando encoder visivi e audio nel suo sistema 30B-A3B. Questa combinazione strategica elimina la necessità di modelli di percezione separati, migliorando significativamente l’efficienza dell’inferenza in applicazioni su larga scala. Di conseguenza, i sistemi di intelligenza artificiale che utilizzano questo modello possono raggiungere una velocità di elaborazione 9 volte superiore rispetto ad altri modelli omnidirezionali aperti con capacità di interazione simili. Questi progressi si traducono in costi operativi ridotti e una maggiore scalabilità senza compromettere la qualità o la reattività.
Nei sistemi agentici, Nemotron 3 Nano Omni può integrarsi perfettamente con modelli cloud proprietari o altri modelli NVIDIA Nemotron, tra cui Nemotron 3 Super per attività ad alta frequenza o Nemotron 3 Ultra per attività di pianificazione complesse. Questa versatilità facilita lo sviluppo di sub-agenti all’interno di flussi di lavoro che coinvolgono l’utilizzo del computer, l’intelligenza documentale e il ragionamento audiovisivo.
- Agenti per l’utilizzo del computer: il Nemotron 3 Nano Omni migliora il ciclo di percezione per gli agenti che interagiscono con interfacce grafiche, consentendo loro di ragionare efficacemente sui contenuti visualizzati sullo schermo. Ad esempio, l’innovativo agente per l’utilizzo del computer di H Company sfrutta una risoluzione nativa di 1920×1080 pixel per offrire un ragionamento visivo superiore. I primi test con il benchmark OSWorld dimostrano un miglioramento significativo nella navigazione di interfacce grafiche complesse, beneficiando della capacità del modello di elaborare immagini ad alta risoluzione.
- Analisi documentale intelligente: questa funzionalità consente agli agenti di interpretare documenti, grafici, tabelle, screenshot e input multimediali, facilitando così un ragionamento coerente tra strutture visive e contenuti testuali. Tale funzionalità è fondamentale per l’analisi aziendale e i processi di conformità.
- Comprensione audio e video: Nemotron 3 Nano Omni eccelle nel mantenere il contesto audio-video, fondamentale per il servizio clienti, la ricerca e le applicazioni di monitoraggio. La sua capacità di integrare informazioni vocali e visive in un quadro di ragionamento coerente elimina la necessità di riassunti frammentari.
Lascia un commento