NVIDIA kooperiert mit Foxconn, Palantir und Oracle für Nemotron 3 Nano Omni; neues Open-AI-Modell liefert 9-fache Leistungssteigerung

NVIDIA kooperiert mit Foxconn, Palantir und Oracle für Nemotron 3 Nano Omni; neues Open-AI-Modell liefert 9-fache Leistungssteigerung

NVIDIA hat sein hochmodernes Open AI-Modell, den Neomotron 3 Nano Omni, vorgestellt, der eine beeindruckende 9-fache Steigerung des Agentic AI-Durchsatzes aufweist.

NVIDIA erweitert das Portfolio offener KI-Modelle mit Neomotron 3 Nano Omni und liefert eine außergewöhnliche 9-fache Leistungssteigerung.

Zusammenfassung der Pressemitteilung: Heute feiert NVIDIAs Nemotron 3 Nano Omni Premiere, ein vielseitiges multimodales Modell, das Funktionen für verschiedene Formate wie Video, Audio, Bilder und Text vereint. Dieses fortschrittliche Modell ermöglicht Unternehmen und Entwicklern die Erstellung effizienter und präziser multimodaler KI-Agenten und bietet umfassende Flexibilität und Kontrolle beim Einsatz.

Der Nemotron 3 Nano Omni setzt neue Maßstäbe in puncto Effizienz für offene multimodale Modelle und erzielt höchste Genauigkeit bei geringeren Kosten. Das Modell hat zahlreiche Benchmarks übertroffen und führt sechs Bestenlisten für komplexe Dokumentenanalyse und Audio-Video-Verständnis an.

Eine Vergleichstabelle mit dem Titel „Vorher vs. Mit Nemotron 3 Nano Omni“ stellt separate Modelle und höhere Latenz einem einzigen Modell gegenüber, das einen einheitlichen Kontext und einen 9-fach höheren Durchsatz bietet.
Vergleich der Modellleistung

Führende KI- und Softwareunternehmen wie Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir und Pyler nutzen bereits die Möglichkeiten des Nemotron 3 Nano Omni. Darüber hinaus evaluieren weitere Unternehmen wie Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle und Zefr das Modell aktiv für ihre Anwendungen.

Transformation multimodaler Agenten: Wie Nemotron 3 Nano Omni die Effizienz steigert

Nemotron 3 Nano Omni nutzt eine hybride Architektur, die Bild- und Audio-Encoder in sein 30B-A3B-System integriert. Diese strategische Kombination macht separate Wahrnehmungsmodelle überflüssig und steigert die Effizienz der Inferenz in groß angelegten Anwendungen erheblich. Dadurch erreichen KI-Systeme mit diesem Modell einen neunmal höheren Durchsatz als andere offene Omni-Modelle mit ähnlichen Interaktionsfähigkeiten. Diese Fortschritte führen zu geringeren Betriebskosten und verbesserter Skalierbarkeit ohne Kompromisse bei Qualität oder Reaktionsfähigkeit.

In agentenbasierten Systemen lässt sich der Nemotron 3 Nano Omni nahtlos in proprietäre Cloud-Modelle oder andere NVIDIA Nemotron-Modelle integrieren, darunter Nemotron 3 Super für häufige Aufgaben oder Nemotron 3 Ultra für komplexe Planungsaufgaben. Diese Vielseitigkeit erleichtert die Entwicklung von Subagenten innerhalb von Workflows, die Computernutzung, Dokumentenanalyse und audiovisuelle Auswertung umfassen.

  • Computernutzungsagenten – Der Nemotron 3 Nano Omni optimiert die Wahrnehmungsschleife von Agenten, die mit grafischen Benutzeroberflächen interagieren, und ermöglicht ihnen so ein effektiveres Verständnis von Bildschirminhalten. Beispielsweise nutzt der innovative Computernutzungsagent von H Company eine native Auflösung von 1920 × 1080 Pixeln für überlegene visuelle Schlussfolgerungen. Erste Tests mit dem OSWorld-Benchmark zeigen eine deutliche Verbesserung bei der Navigation komplexer grafischer Oberflächen, die von der Fähigkeit des Modells zur Verarbeitung hochauflösender Bilder profitiert.
  • Dokumentenintelligenz – Diese Funktion ermöglicht es Mitarbeitern, Dokumente, Diagramme, Tabellen, Screenshots und Mixed-Media-Eingaben zu interpretieren und so ein schlüssiges Verständnis visueller Strukturen und textueller Inhalte zu fördern. Diese Funktionalität ist für Unternehmensanalysen und Compliance-Prozesse unerlässlich.
  • Audio- und Videoverständnis – Der Nemotron 3 Nano Omni zeichnet sich durch die hervorragende Aufrechterhaltung des Audio-Video-Kontexts aus, was für Kundenservice, Forschung und Überwachungsanwendungen unerlässlich ist. Seine Fähigkeit, gesprochene und visuelle Informationen in ein zusammenhängendes Schlussfolgerungsmodell zu integrieren, macht fragmentierte Zusammenfassungen überflüssig.

Quellen & Bilder

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert