Amazon, Nova Sonic 오디오 모델 출시, OpenAI 및 Google보다 더 나은 것으로 주장

Amazon, Nova Sonic 오디오 모델 출시, OpenAI 및 Google보다 더 나은 것으로 주장

Amazon에서 Nova Sonic을 공개: 획기적인 음성 대 음성 모델

최근 발표에서 Amazon은 개발자가 실시간, 생생한 음성 상호 작용을 용이하게 하는 애플리케이션을 만들 수 있도록 설계된 고급 음성 대 음성 모델인 Nova Sonic을 출시했습니다. Amazon에 따르면 이 혁신적인 모델은 최고 수준의 가격 대비 성능과 놀라울 정도로 낮은 지연 시간을 자랑합니다.

기존 음성 앱 개발의 복잡성

역사적으로 음성 지원 애플리케이션을 구축하는 데는 개발자가 다양한 모델을 통합해야 하는 복잡한 프로세스가 수반되었습니다.일반적으로 여기에는 말한 단어를 텍스트로 변환하는 음성 인식 모델과 응답을 이해하고 생성하는 데 필요한 대규모 언어 모델, 마지막으로 텍스트를 다시 들을 수 있는 음성으로 변환하는 텍스트-음성 모델이 포함됩니다.이러한 단편화된 접근 방식은 복잡성을 추가할 뿐만 아니라 톤, 음조, 개별적인 말하기 스타일과 같은 중요한 음향적 뉘앙스를 생략할 수도 있습니다.

통합 Nova Sonic 접근 방식의 이점

기존 방식과 달리 Nova Sonic은 톤, 스타일, 언어적 입력을 이해하는 데 뛰어난 통합 모델을 사용하여 더욱 유기적인 대화 경험을 제공합니다.이 고급 모델은 적절한 개입 순간을 식별하여 대화의 유동성을 높이기 위해 방해를 효과적으로 관리할 수 있습니다.

개발자를 위한 다양성과 접근성

Nova Sonic은 미국 및 영국 방언을 포함한 다양한 영어 악센트로 남성 및 여성 음성 옵션을 제공합니다.개발자는 함수 호출 지원이 포함된 양방향 스트리밍 API를 활용하여 Amazon Bedrock을 통해 이 모델을 원활하게 통합할 수 있습니다.안전을 보장하기 위해 Nova Sonic은 기본 제공 콘텐츠 조정 및 워터마킹 기능도 통합합니다.

모델 사양

Amazon Nova Sonic 모델의 주요 사양은 다음과 같습니다.

아마존 노바 소닉
모델 ID 아마존.노바-소닉-v1:0
입력 방식 연설
출력 방식 음성과 필사본 및 텍스트 응답
컨텍스트 창 300K 컨텍스트
최대 연결 기간 연결 시간 초과는 8분이며, 고객당 동시 연결 수는 최대 20명입니다.
지원 언어 영어
지역 미국 동부(N.버지니아)
양방향 스트림 API 지원
Bedrock 지식 기반 도구 사용(함수 호출)을 통해 지원됨

경쟁적인 환경

관련 개발에서, 지난달 OpenAI는 새로운 세대의 음성-텍스트 모델인 gpt-4o-transcribe와 gpt-4o-mini-transcribe를 소개했습니다.이 모델은 OpenAI의 기존 Whisper 모델과 비교했을 때 단어 오류율, 언어 인식 및 전반적인 정확도 측면에서 상당한 향상을 약속합니다.

출처 및 이미지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다