昨年、Microsoft は、チャットボット、音声アシスタント、ゲームなどの会話型アプリケーション向けに設計された超リアルな AI 音声を発表しました。Azure Speech SDK または REST API を使用すると、開発者はこれらのニューラル テキスト読み上げ (TTS) 音声をアプリケーションに統合できます。ここ数か月で、Microsoft は提供内容を大幅に拡張し、現在では 140 を超える言語とロケールで 500 を超えるニューラル音声を誇っています。
本日、マイクロソフトは、特定の音声向けにニューラル テキスト読み上げサービスの強化された HD バージョンを発表しました。これらの新しい HD 音声は、入力テキストのコンテキストを考慮した感情検出を通じて、全体的な表現力を高めます。マイクロソフトは、これらの最新の HD 音声は自己回帰トランスフォーマー言語モデルを利用しており、選択したプラットフォームの音声の音色に合わせた音声を生成すると主張しています。新しい HD 音声の利点は次のとおりです。
- 人間のような音声生成: アップグレードされたモデルは入力テキストを正確に解釈し、根底にある感情を理解して、伝えられる感情に合わせて話し方のトーンをリアルタイムで調整できます。
- 会話: この新しいモデルは、自然な休止と強調を生成します。Microsoft は、休止やつなぎ言葉などの一般的な音素を再現できることを強調しています。
- 韻律の変化: HD 音声システムは、各出力にわずかな変化を導入し、すべての文が以前に生成された音声とは異なって聞こえるようにすることで、リアリティを高めます。
Microsoft の Cognitive Services Speech プログラム マネージャーである Garfield He 氏は、HD 音声のリリースについて次のようにコメントしています。
「音響と言語の特徴を利用して豊かで自然なバリエーションを特徴とする音声を生成する革新的な技術により、テキスト内の感情的な手がかりを巧みに検出し、音声のトーンとスタイルを自動的に調整します。このアップグレードにより、イントネーション、リズム、感情が改善され、より人間らしい音声パターンが実現します。」
この HD 音声モデルで生成されたサンプル オーディオ コンテンツは、以下のビデオでご覧いただけます。
https://www.youtube.com/watch?v=UCYok4I4a24
新しい HD 音声は現在、米国東部、西ヨーロッパ、東南アジアの 3 つの地域の開発者向けにプレビュー中です。これらの HD 音声の利用料金は、100 万文字あたり 30 ドルに設定されています。
出典:マイクロソフト
コメントを残す