Microsoft、Azure AI Speech で表現力を強化した HD Voices を導入

昨年、Microsoft は、チャットボット、音声アシスタント、ゲームなどの会話型アプリケーション向けに設計された超リアルな AI 音声を発表しました。Azure Speech SDK または REST API を使用すると、開発者はこれらのニューラルテキスト読み上げ (TTS) 音声をアプリケーションに統合できます。ここ数か月で、Microsoft は提供内容を大幅に拡張し、現在では 140 を超える言語とロケールで 500 を超えるニューラル音声を誇っています。

本日、マイクロソフトは、特定の音声向けにニューラルテキスト読み上げサービスの強化された HD バージョンを発表しました。これらの新しい HD 音声は、入力テキストのコンテキストを考慮した感情検出を通じて、全体的な表現力を高めます。マイクロソフトは、これらの最新の HD 音声は自己回帰トランスフォーマー言語モデルを利用しており、選択したプラットフォームの音声の音色に合わせた音声を生成すると主張しています。新しい HD 音声の利点は次のとおりです。

人間のような音声生成: アップグレードされたモデルは入力テキストを正確に解釈し、根底にある感情を理解して、伝えられる感情に合わせて話し方のトーンをリアルタイムで調整できます。
会話: この新しいモデルは、自然な休止と強調を生成します。Microsoft は、休止やつなぎ言葉などの一般的な音素を再現できることを強調しています。
韻律の変化: HD 音声システムは、各出力にわずかな変化を導入し、すべての文が以前に生成された音声とは異なって聞こえるようにすることで、リアリティを高めます。

Microsoft の Cognitive Services Speech プログラムマネージャーである Garfield He 氏は、HD 音声のリリースについて次のようにコメントしています。