
Azure AI Speech 增強功能:推出 DragonV2.1 神經 TTS 模型
微軟宣布推出 DragonV2.1 神經文字轉語音 (TTS) 模型,標誌著 Azure AI Speech 功能的重大升級。此零樣本模型能夠以極少的輸入資料產生富有表現力且自然的聲音,從而徹底革新語音合成技術。這些增強功能有望提供卓越的發音準確性和對語音特徵的更強控制力,從而為語音技術樹立全新標竿。
DragonV2.1的主要特點
升級後的DragonV2.1 模型支援超過 100 種語言的語音合成,只需輸入簡短的使用者語音範例即可有效運作。這項功能標誌著 DragonV1 模型取得了顯著進步,先前的 DragonV1 模型在發音方面面臨挑戰,尤其是在命名實體方面。
DragonV2.1的應用範圍十分廣泛,包括:
- 聊天機器人的聲音定制
- 為影片內容配音,演員原聲,涵蓋多種語言
提高自然度和控制力
新模型的一大亮點在於它能夠創造更真實、更穩定的韻律,從而提升聆聽體驗。微軟報告稱,與上一代 DragonV1 相比,詞錯率 (WER) 平均顯著降低了 12.8%。使用者可以透過語音合成標記語言 (SSML) 音素標籤和自訂字典,對發音和口音的各個方面進行精細控制。
對深度偽造的擔憂和緩解策略
這些進步雖然帶來了令人興奮的機遇,但也引發了人們對該技術可能被濫用於製作深度偽造作品的擔憂。為了應對這些風險,微軟實施了嚴格的使用政策,要求用戶獲得原始語音所有者的明確同意,披露合成內容的生成時間,並禁止任何形式的冒充或欺騙。
此外,微軟還在合成語音輸出中引入了自動浮水印功能。該功能在各種音訊處理場景中擁有高達 99.7% 的偵測準確率,增強了防止 AI 語音被濫用的安全性。
Azure AI Speech 入門
要探索個人語音功能,有興趣的使用者可以在Speech Studio上試用。此外,希望完全存取 API 的企業可以在此處申請,將這些高級功能整合到他們的應用程式中。
發佈留言