
Amazon が Nova Sonic を発表: 画期的な音声合成モデル
最近の発表で、Amazon は、リアルタイムでリアルな音声インタラクションを実現するアプリケーションを開発者が作成できるように設計された高度な音声対音声モデルである Nova Sonic を発表しました。Amazon によると、この革新的なモデルは優れており、トップクラスの価格性能と驚くほど低い遅延を誇ります。
従来の音声アプリ開発の複雑さ
これまで、音声対応アプリケーションの構築には、開発者がさまざまなモデルを統合しなければならない複雑なプロセスが伴ってきました。通常、これには、話された言葉をテキストに書き起こす音声認識モデル、理解と応答の生成に必要な大規模な言語モデル、そして最後にテキストを音声に変換するテキスト読み上げモデルが含まれます。このような断片的なアプローチは複雑さを増すだけでなく、トーン、リズム、個々の話し方などの重要な音響ニュアンスが省略される可能性もあります。
統合されたNova Sonicアプローチの利点
従来の方法とは異なり、Nova Sonic は、トーン、スタイル、言語入力の理解に優れた統合モデルを採用し、より自然な会話体験を実現します。この高度なモデルは、適切なタイミングで割り込むことができ、中断を効果的に管理して対話の流暢性を高めます。
開発者のための汎用性とアクセシビリティ
Nova Sonic は、アメリカやイギリスの方言を含むさまざまな英語のアクセントで、男性と女性の両方の音声オプションを提供します。開発者は、関数呼び出しサポートを備えた双方向ストリーミング API を使用して、Amazon Bedrock 経由でこのモデルをシームレスに統合できます。安全性を確保するために、Nova Sonic には組み込みのコンテンツ モデレーション機能と透かし機能も組み込まれています。
モデル仕様
以下は、Amazon Nova Sonic モデルの主な仕様です。
アマゾン ノヴァソニック | |
モデルID | amazon.nova-sonic-v1:0 |
入力方法 | スピーチ |
出力形式 | 音声の書き起こしとテキスト応答 |
コンテキストウィンドウ | 300K コンテキスト |
最大接続時間 | 接続タイムアウトは 8 分で、顧客あたり最大 20 の同時接続が可能です。 |
サポートされている言語 | 英語 |
地域 | 米国東部(バージニア州北部) |
双方向ストリーム API サポート | はい |
基盤ナレッジベース | ツールの使用(関数呼び出し)を通じてサポートされます |
競争環境
関連する開発として、OpenAI は先月、新世代の音声テキスト変換モデル、gpt-4o-transcribe と gpt-4o-mini-transcribe を発表しました。これらのモデルは、OpenAI の既存の Whisper モデルと比較して、単語エラー率、言語認識、および全体的な精度の点で大幅な向上を約束します。
コメントを残す ▼