
亞馬遜推出 Nova Sonic:突破性的語音轉語音模型
亞馬遜在最近的公告中推出了 Nova Sonic,這是一種先進的語音到語音模型,旨在幫助開發人員創建能夠實現即時、逼真的語音互動的應用程式。亞馬遜表示,這款創新機型表現出色,具有頂級的性價比和極低的延遲。
傳統語音應用程式開發的複雜性
從歷史上看,建立支援語音的應用程式涉及一個複雜的過程,開發人員必須整合各種模型。通常,這包括用於將口語轉錄為文字的語音辨識模型,以及理解和產生回應所需的大型語言模型,最後是將文字轉換回可聽語音的文字到語音模型。這種分散的方法不僅增加了複雜性,而且可能忽略音調、節奏和個人說話風格等關鍵的聲學細微差別。
整合 Nova Sonic 方法的優勢
與傳統方法相反,Nova Sonic 採用統一模型,擅長理解語氣、風格和口頭輸入,從而提供更自然的對話體驗。這種先進的模型能夠辨別插入的正確時機,有效地管理中斷以增強對話的流暢性。
為開發人員提供多功能性和可訪問性
Nova Sonic 提供多種英語口音的男性和女性聲音選項,包括美國和英國方言。開發人員可以透過 Amazon Bedrock 利用具有函數呼叫支援的雙向流 API 無縫整合此模型。為了確保安全,Nova Sonic 還採用了內建內容審核和浮水印功能。
型號規格
以下是 Amazon Nova Sonic 型號的主要規格:
亞馬遜 Nova Sonic | |
模型 ID | amazon.nova-sonic-v1:0 |
輸入方式 | 演講 |
輸出方式 | 帶有轉錄和文字回應的語音 |
上下文視窗 | 300K 上下文 |
最大連接時長 | 連線逾時時間為 8 分鐘,每位客戶最多可同時連接 20 個。 |
支援的語言 | 英語 |
區域 | 美國東部(維吉尼亞北部) |
雙向流 API 支持 | 是的 |
基岩知識庫 | 透過工具使用(函數呼叫)支持 |
競爭格局
在相關發展中,OpenAI 上個月推出了其新一代語音轉文字模型,即 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。與 OpenAI 現有的 Whisper 模型相比,這些模型在詞彙錯誤率、語言辨識和整體準確度方面有望大幅提升。
發佈留言