去年,微軟推出了專為對話應用程式設計的超逼真人工智慧語音,例如聊天機器人、語音助理、遊戲等。透過 Azure Speech SDK 或 REST API,開發人員可以將這些神經文字轉語音 (TTS) 語音整合到他們的應用程式中。近幾個月來,微軟大幅擴展了其產品範圍,目前擁有涵蓋 140 多種語言和區域的 500 多種神經語音。
今天,微軟推出了針對特定語音的神經文字轉語音服務的增強型高清版本。這些新的高清語音透過考慮輸入文字情境的情緒偵測來增強整體表現力。微軟聲稱,這些最新的高清語音利用自回歸變壓器語言模型,產生與所選平台的語音音色一致的語音。新的高清語音的優點包括:
- 類人語音生成:升級後的模型可以準確地解釋輸入文字並理解潛在的情感,使其能夠即時調整說話語氣以匹配所傳達的情感。
- 對話式:這種新模式會產生自發性的停頓和強調。微軟強調它可以複製常見的音素,例如停頓和填充詞。
- 韻律變化:高清語音系統在每個輸出中引入輕微的變化,透過確保每個句子聽起來與先前產生的語音不同來增強真實感。
微軟認知服務語音專案經理 Garfield He 對高清語音的發布評論道:
「憑藉著利用聲學和語言特徵來產生具有豐富、自然變化的語音的創新技術,它能夠巧妙地檢測文本中的情感線索,並自動調整語音的語氣和風格。此次升級提供了更人性化的語音模式,其特點是語調、節奏和情感得到了改善。
使用此高清語音模型產生的範例音訊內容可以在下面的影片中找到。
https://www.youtube.com/watch?v=UCYok4I4a24
新的高清語音目前正在為三個地區的開發者提供預覽:美國東部、西歐和東南亞。使用這些高清語音的成本定為每 100 萬個字元 30 美元。
來源:微軟
發佈留言