
Azure AI Speech の機能強化: DragonV2.1 ニューラル TTS モデルのご紹介
Microsoftは、Azure AI Speechの機能を大幅にアップグレードし、DragonV2.1ニューラル音声合成(TTS)モデルのリリースを発表しました。このゼロショットモデルは、最小限の入力データから表現力豊かで自然な音声を生成できるようにすることで、音声合成に革命をもたらします。これらの機能強化により、優れた発音精度と音声特性の高度な制御が実現し、音声テクノロジーの新たな基準を確立します。
DragonV2.1の主な機能
アップグレードされたDragonV2.1モデルは100以上の言語の音声合成をサポートし、ユーザーの短い音声サンプルを入力するだけで効果的に操作できます。この機能は、特に固有表現の発音に課題があった以前のDragonV1モデルからの大きな進歩です。
DragonV2.1 には、次のような幅広いアプリケーションがあります。
- チャットボットの音声のカスタマイズ
- 多数の言語で俳優のオリジナルの声でビデオコンテンツを吹き替える
自然さとコントロールの向上
新モデルの際立った特徴の一つは、よりリアルで安定した韻律を生成し、リスニング体験を向上させることです。Microsoftによると、前モデルのDragonV1と比較して、単語誤り率(WER)が平均12.8%も大幅に減少しました。ユーザーは、音声合成マークアップ言語(SSML)の音素タグとカスタマイズされた語彙集を通じて、発音やアクセントの様々な側面をきめ細かく制御できます。
ディープフェイクに関する懸念と緩和戦略
これらの進歩は刺激的な可能性をもたらす一方で、ディープフェイクの作成にこの技術が悪用される可能性に対する懸念も生じています。こうしたリスクに対抗するため、マイクロソフトは厳格な利用ポリシーを導入し、ユーザーに元の音声所有者からの明示的な同意を得ること、コンテンツが合成で生成された場合にはその旨を開示すること、そしてあらゆる形態のなりすましや欺瞞を禁止することを義務付けています。
さらに、Microsoftは合成音声出力に自動透かしを導入します。この機能は、様々な音声操作シナリオにおいて99.7%という驚異的な検出精度を誇り、AI生成音声の不正利用に対するセキュリティを強化します。
Azure AI Speech を使い始める
パーソナル音声機能の機能を詳しく知りたい方は、 Speech Studioでお試しください。また、APIへのフルアクセスをご希望の企業は、こちらからお申し込みいただき、これらの高度な機能を自社のアプリケーションに統合できます。
Depositphotos.comより画像提供
コメントを残す