Firma NVIDIA zaprezentowała swój najnowocześniejszy model Open AI, Neomotron 3 Nano Omni, który charakteryzuje się imponującym, dziewięciokrotnym wzrostem przepustowości agentowej AI.
NVIDIA rozszerza portfolio modeli otwartej sztucznej inteligencji o procesor Neomotron 3 Nano Omni, który zapewnia wyjątkowy, 9-krotny wzrost wydajności
Streszczenie komunikatu prasowego: Dziś zadebiutował Nemotron 3 Nano Omni firmy NVIDIA – wszechstronny model multimodalny konsolidujący możliwości różnych formatów, w tym wideo, audio, obrazów i tekstu. Ten zaawansowany model umożliwia przedsiębiorstwom i deweloperom tworzenie wydajnych i precyzyjnych multimodalnych agentów AI, zapewniając dużą elastyczność i kontrolę nad wdrażaniem.
Nemotron 3 Nano Omni przesuwa granice wydajności otwartych modeli multimodalnych, osiągając wiodącą dokładność przy niższych kosztach. Model ten przewyższył liczne testy porównawcze, zajmując pierwsze miejsce w sześciu rankingach poświęconych analizie złożonych dokumentów i rozumieniu audio-wideo.

Wiodące firmy z branży sztucznej inteligencji i oprogramowania, takie jak Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir i Pyler, już zaczęły wykorzystywać możliwości Nemotron 3 Nano Omni. Ponadto inne firmy, takie jak Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle i Zefr, aktywnie testują ten model w swoich aplikacjach.
Transformacja agentów multimodalnych: jak Nemotron 3 Nano Omni przyspiesza wydajność
Nemotron 3 Nano Omni wykorzystuje hybrydową architekturę opartą na połączeniu ekspertów, integrując kodery wizji i dźwięku w systemie 30B-A3B. To strategiczne połączenie eliminuje konieczność stosowania oddzielnych modeli percepcji, znacząco zwiększając efektywność wnioskowania w aplikacjach na dużą skalę. W rezultacie systemy AI wykorzystujące ten model mogą osiągnąć 9-krotnie wyższą przepustowość w porównaniu z innymi otwartymi modelami Omni o podobnych możliwościach interakcji. Te udoskonalenia przekładają się na obniżenie kosztów operacyjnych i lepszą skalowalność bez uszczerbku dla jakości i responsywności.
W systemach agentowych Nemotron 3 Nano Omni może bezproblemowo integrować się z zastrzeżonymi modelami chmurowymi lub innymi modelami NVIDIA Nemotron, w tym Nemotron 3 Super do zadań o wysokiej częstotliwości lub Nemotron 3 Ultra do skomplikowanych zadań planistycznych. Ta wszechstronność ułatwia tworzenie podagentów w ramach przepływów pracy obejmujących wykorzystanie komputera, analizę dokumentów i wnioskowanie audiowizualne.
- Agenci użytkowania komputera — Nemotron 3 Nano Omni usprawnia pętlę percepcji agentów komunikujących się z graficznymi interfejsami użytkownika, umożliwiając im efektywne rozumowanie treści wyświetlanych na ekranie. Na przykład, innowacyjny agent użytkowania komputera firmy H Company wykorzystuje natywną rozdzielczość 1920×1080 pikseli, zapewniając doskonałe rozumowanie wizualne. Wstępne testy z wykorzystaniem benchmarku OSWorld wykazują znaczną poprawę w nawigacji po złożonych interfejsach graficznych, dzięki wykorzystaniu możliwości modelu w zakresie przetwarzania obrazów o wysokiej rozdzielczości.
- Inteligencja Dokumentów — ta funkcja pozwala agentom interpretować dokumenty, wykresy, tabele, zrzuty ekranu i dane wejściowe w różnych mediach, ułatwiając w ten sposób spójne rozumowanie w oparciu o struktury wizualne i treści tekstowe. Taka funkcjonalność jest kluczowa dla analizy przedsiębiorstwa i procesów związanych z zapewnieniem zgodności.
- Rozumienie dźwięku i obrazu — Nemotron 3 Nano Omni doskonale radzi sobie z utrzymaniem kontekstu audiowizualnego, co jest kluczowe w obsłudze klienta, badaniach i aplikacjach monitorujących. Jego zdolność do integrowania informacji mówionych i wizualnych w spójny system rozumowania eliminuje potrzebę fragmentarycznych podsumowań.
Dodaj komentarz