NVIDIAがFoxconn、Palantir、Oracleと提携しNemotron 3 Nano Omniを発表。新しいOpen AIモデルは9倍のパフォーマンス向上を実現。

NVIDIAがFoxconn、Palantir、Oracleと提携しNemotron 3 Nano Omniを発表。新しいOpen AIモデルは9倍のパフォーマンス向上を実現。

NVIDIAは、最先端のオープンAIモデルであるNeomotron 3 Nano Omniを発表した。このモデルは、エージェントAIの処理能力が驚異的な9倍向上したことを誇る。

NVIDIAは、Neomotron 3 Nano OmniでOpen AIモデルポートフォリオを拡張し、驚異的な9倍のパフォーマンス向上を実現しました。

プレスリリース概要:本日、NVIDIAはNemotron 3 Nano Omniを発表しました。これは、ビデオ、オーディオ、画像、テキストなど、さまざまなフォーマットに対応した機能を統合した、汎用性の高いマルチモーダルモデルです。この先進的なモデルにより、企業や開発者は効率的かつ高精度なマルチモーダルAIエージェントを作成でき、導入における柔軟性と制御性を大幅に向上させることができます。

Nemotron 3 Nano Omniは、オープンなマルチモーダルモデルの効率性の限界を押し広げ、低コストで最高レベルの精度を実現しています。このモデルは数々のベンチマークで優れた性能を発揮し、複雑な文書認識と音声・映像理解に特化した6つのランキングでトップに立っています。

「Nemotron 3 Nano Omni導入前と導入後」と題された比較表では、別々のモデルと高いレイテンシを、統合されたコンテキストと9倍高いスループットを提供する単一モデルと比較しています。
モデル性能の比較

Aible、Applied Scientific Intelligence(ASI)、Eka Care、Foxconn、H Company、Palantir、Pylerといった大手AIおよびソフトウェア企業は、既にNemotron 3 Nano Omniの機能を活用し始めています。さらに、Dell Technologies、DocuSign、Infosys、K-Dense、Lila、Oracle、Zefrなどの企業も、自社のアプリケーション向けにこのモデルを積極的に評価しています。

マルチモーダルエージェントの変革:Nemotron 3 Nano Omniが効率を加速する方法

Nemotron 3 Nano Omniは、ハイブリッドなエキスパート混合アーキテクチャを採用し、ビジョンエンコーダとオーディオエンコーダを30B-A3Bシステムに統合しています。この戦略的な組み合わせにより、個別の知覚モデルが不要となり、大規模アプリケーションにおける推論効率が大幅に向上します。その結果、このモデルを利用するAIシステムは、同様のインタラクション機能を備えた他のオープンオムニモデルと比較して、9倍のスループットを実現できます。これらの進歩は、品質や応答性を損なうことなく、運用コストの削減と拡張性の向上につながります。

エージェントシステムにおいて、Nemotron 3 Nano Omniは、独自のクラウドモデルや、高頻度タスク向けのNemotron 3 Super、複雑な計画タスク向けのNemotron 3 Ultraなど、他のNVIDIA Nemotronモデルとシームレスに統合できます。この汎用性により、コンピュータの使用、ドキュメントインテリジェンス、およびオーディオビジュアル推論を含むワークフロー内でサブエージェントを開発することが容易になります。

  • コンピュータ利用エージェント — Nemotron 3 Nano Omniは、グラフィカルユーザーインターフェースと連携するエージェントの知覚ループを強化し、画面上のコンテンツを効果的に推論できるようにします。例えば、H Companyの革新的なコンピュータ利用エージェントは、1920×1080ピクセルのネイティブ解像度を利用して、優れた視覚的推論を実現します。OSWorldベンチマークを使用した初期テストでは、高解像度画像を処理するモデルの能力により、複雑なグラフィカルインターフェースの操作性が大幅に向上することが実証されています。
  • ドキュメントインテリジェンス ―この機能により、エージェントは文書、図表、表、スクリーンショット、および複数のメディアを組み合わせた入力データを解釈し、視覚的な構造とテキストコンテンツ全体にわたる一貫性のある推論を容易に行うことができます。このような機能は、企業分析やコンプライアンス関連プロセスにとって不可欠です。
  • 音声と映像の理解 ― Nemotron 3 Nano Omniは、音声と映像のコンテキストを維持する能力に優れており、顧客サービス、調査、監視などの用途に不可欠です。音声情報と映像情報を統合して一貫性のある推論フレームワークを構築できるため、断片的な要約を作成する必要がなくなります。

出典と画像

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です