NVIDIA는 에이전트 AI 처리량이 무려 9배 증가한 최첨단 오픈 AI 모델인 Neomotron 3 Nano Omni 를 공개했습니다.
NVIDIA는 Neomotron 3 Nano Omni를 통해 오픈 AI 모델 포트폴리오를 확장하고, 탁월한 9배 성능 향상을 제공합니다.
보도자료 요약: NVIDIA는 오늘 비디오, 오디오, 이미지, 텍스트 등 다양한 형식을 아우르는 기능을 통합한 다목적 멀티모달 모델인 Nemotron 3 Nano Omni를 출시했습니다.이 고급 모델은 기업과 개발자가 효율적이고 정확한 멀티모달 AI 에이전트를 구축할 수 있도록 지원하며, 배포에 있어 폭넓은 유연성과 제어 기능을 제공합니다.
Nemotron 3 Nano Omni는 개방형 멀티모달 모델의 효율성 한계를 뛰어넘어 더 낮은 비용으로 최고의 정확도를 달성합니다.이 모델은 수많은 벤치마크에서 우수한 성능을 보여주었으며, 복잡한 문서 분석 및 오디오-비디오 이해 분야의 6개 순위표에서 1위를 차지했습니다.

Aible, Applied Scientific Intelligence(ASI), Eka Care, Foxconn, H Company, Palantir, Pyler 등 주요 AI 및 소프트웨어 기업들이 이미 Nemotron 3 Nano Omni의 기능을 활용하기 시작했습니다.또한 Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle, Zefr 등 다른 기업들도 자사 애플리케이션에 이 모델을 적용하기 위해 적극적으로 검토 중입니다.
다중 모드 에이전트의 혁신: 네모트론 3 나노 옴니가 효율성을 가속화하는 방법
Nemotron 3 Nano Omni는 비전 및 오디오 인코더를 30B-A3B 시스템에 통합한 하이브리드 혼합형 전문가 아키텍처를 채택했습니다.이러한 전략적 결합을 통해 별도의 인식 모델이 필요 없어지므로 대규모 애플리케이션에서 추론 효율성이 크게 향상됩니다.결과적으로 이 모델을 사용하는 AI 시스템은 유사한 상호 작용 기능을 가진 다른 개방형 옴니 모델에 비해 처리량이 최대 9배까지 높아질 수 있습니다.이러한 발전은 품질이나 응답성을 저하시키지 않으면서 운영 비용을 절감하고 확장성을 향상시킵니다.
에이전트 기반 시스템에서 Nemotron 3 Nano Omni는 자체 클라우드 모델이나 다른 NVIDIA Nemotron 모델(예: 고빈도 작업을 위한 Nemotron 3 Super 또는 복잡한 계획 작업을 위한 Nemotron 3 Ultra)과 원활하게 통합될 수 있습니다.이러한 다재다능함은 컴퓨터 사용, 문서 분석 및 시청각 추론과 관련된 워크플로 내에서 하위 에이전트 개발을 용이하게 합니다.
- 컴퓨터 사용 에이전트 — 네모트론 3 나노 옴니는 그래픽 사용자 인터페이스와 상호 작용하는 에이전트의 인지 루프를 향상시켜 화면 콘텐츠를 효과적으로 추론할 수 있도록 합니다.예를 들어, H사의 혁신적인 컴퓨터 사용 에이전트는 1920×1080 픽셀의 기본 해상도를 활용하여 탁월한 시각적 추론 성능을 제공합니다. OSWorld 벤치마크를 사용한 초기 테스트 결과, 복잡한 그래픽 인터페이스 탐색 성능이 크게 향상되었으며, 이는 고해상도 이미지 처리 능력 덕분입니다.
- 문서 인텔리전스 — 이 기능을 통해 에이전트는 문서, 차트, 표, 스크린샷 및 혼합 미디어 입력을 해석하여 시각적 구조와 텍스트 콘텐츠 전반에 걸쳐 일관된 추론을 수행할 수 있습니다.이러한 기능은 기업 분석 및 규정 준수 관련 프로세스에 매우 중요합니다.
- 오디오 및 비디오 이해 — 네모트론 3 나노 옴니는 고객 서비스, 연구 및 모니터링 애플리케이션에 필수적인 오디오-비디오 컨텍스트를 유지하는 데 탁월합니다.음성 및 시각 정보를 통합하여 일관된 추론 체계를 구축함으로써 단편적인 요약의 필요성을 없애줍니다.
답글 남기기