亞馬遜推出 Nova Sonic 音訊模型，聲稱比 OpenAI 和谷歌更好

亞馬遜推出 Nova Sonic：突破性的語音轉語音模型

亞馬遜在最近的公告中推出了 Nova Sonic，這是一種先進的語音到語音模型，旨在幫助開發人員創建能夠實現即時、逼真的語音互動的應用程式。亞馬遜表示，這款創新機型表現出色，具有頂級的性價比和極低的延遲。

傳統語音應用程式開發的複雜性

從歷史上看，建立支援語音的應用程式涉及一個複雜的過程，開發人員必須整合各種模型。通常，這包括用於將口語轉錄為文字的語音辨識模型，以及理解和產生回應所需的大型語言模型，最後是將文字轉換回可聽語音的文字到語音模型。這種分散的方法不僅增加了複雜性，而且可能忽略音調、節奏和個人說話風格等關鍵的聲學細微差別。

整合 Nova Sonic 方法的優勢

與傳統方法相反，Nova Sonic 採用統一模型，擅長理解語氣、風格和口頭輸入，從而提供更自然的對話體驗。這種先進的模型能夠辨別插入的正確時機，有效地管理中斷以增強對話的流暢性。

為開發人員提供多功能性和可訪問性

Nova Sonic 提供多種英語口音的男性和女性聲音選項，包括美國和英國方言。開發人員可以透過 Amazon Bedrock 利用具有函數呼叫支援的雙向流 API 無縫整合此模型。為了確保安全，Nova Sonic 還採用了內建內容審核和浮水印功能。

型號規格

以下是 Amazon Nova Sonic 型號的主要規格：

亞馬遜 Nova Sonic
模型 ID	amazon.nova-sonic-v1:0
輸入方式	演講
輸出方式	帶有轉錄和文字回應的語音
上下文視窗	300K 上下文
最大連接時長	連線逾時時間為 8 分鐘，每位客戶最多可同時連接 20 個。
支援的語言	英語
區域	美國東部（維吉尼亞北部）
雙向流 API 支持	是的
基岩知識庫	透過工具使用（函數呼叫）支持

競爭格局

在相關發展中，OpenAI 上個月推出了其新一代語音轉文字模型，即 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。與 OpenAI 現有的 Whisper 模型相比，這些模型在詞彙錯誤率、語言辨識和整體準確度方面有望大幅提升。

來源和圖片

亞馬遜推出 Nova Sonic 音訊模型，聲稱比 OpenAI 和谷歌更好

亞馬遜推出 Nova Sonic：突破性的語音轉語音模型

傳統語音應用程式開發的複雜性

整合 Nova Sonic 方法的優勢

為開發人員提供多功能性和可訪問性

型號規格

競爭格局

相關文章:

崩壞星軌道最佳卡斯托里斯建造和隊伍組合

下載 WindowBlinds 11.0.6 版本，增強自訂功能

發佈留言取消回覆

亞馬遜推出 Nova Sonic：突破性的語音轉語音模型

傳統語音應用程式開發的複雜性

整合 Nova Sonic 方法的優勢

為開發人員提供多功能性和可訪問性

型號規格

競爭格局

相關文章:

發佈留言 取消回覆

發佈留言取消回覆