亞馬遜推出 Nova Sonic 音訊模型,聲稱比 OpenAI 和谷歌更好

亞馬遜推出 Nova Sonic 音訊模型,聲稱比 OpenAI 和谷歌更好

亞馬遜推出 Nova Sonic:突破性的語音轉語音模型

亞馬遜在最近的公告中推出了 Nova Sonic,這是一種先進的語音到語音模型,旨在幫助開發人員創建能夠實現即時、逼真的語音互動的應用程式。亞馬遜表示,這款創新機型表現出色,具有頂級的性價比和極低的延遲。

傳統語音應用程式開發的複雜性

從歷史上看,建立支援語音的應用程式涉及一個複雜的過程,開發人員必須整合各種模型。通常,這包括用於將口語轉錄為文字的語音辨識模型,以及理解和產生回應所需的大型語言模型,最後是將文字轉換回可聽語音的文字到語音模型。這種分散的方法不僅增加了複雜性,而且可能忽略音調、節奏和個人說話風格等關鍵的聲學細微差別。

整合 Nova Sonic 方法的優勢

與傳統方法相反,Nova Sonic 採用統一模型,擅長理解語氣、風格和口頭輸入,從而提供更自然的對話體驗。這種先進的模型能夠辨別插入的正確時機,有效地管理中斷以增強對話的流暢性。

為開發人員提供多功能性和可訪問性

Nova Sonic 提供多種英語口音的男性和女性聲音選項,包括美國和英國方言。開發人員可以透過 Amazon Bedrock 利用具有函數呼叫支援的雙向流 API 無縫整合此模型。為了確保安全,Nova Sonic 還採用了內建內容審核和浮水印功能。

型號規格

以下是 Amazon Nova Sonic 型號的主要規格:

亞馬遜 Nova Sonic
模型 ID amazon.nova-sonic-v1:0
輸入方式 演講
輸出方式 帶有轉錄和文字回應的語音
上下文視窗 300K 上下文
最大連接時長 連線逾時時間為 8 分鐘,每位客戶最多可同時連接 20 個。
支援的語言 英語
區域 美國東部(維吉尼亞北部)
雙向流 API 支持 是的
基岩知識庫 透過工具使用(函數呼叫)支持

競爭格局

在相關發展中,OpenAI 上個月推出了其新一代語音轉文字模型,即 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。與 OpenAI 現有的 Whisper 模型相比,這些模型在詞彙錯誤率、語言辨識和整體準確度方面有望大幅提升。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *