微软的全新 AI 语音模型:深度伪造的潜在游戏规则改变者

微软的全新 AI 语音模型:深度伪造的潜在游戏规则改变者

Azure AI Speech 增强功能:推出 DragonV2.1 神经 TTS 模型

微软宣布推出 DragonV2.1 神经文本转语音 (TTS) 模型,标志着其 Azure AI Speech 功能的重大升级。该零样本模型能够以极少的输入数据生成富有表现力且自然的声音,从而彻底革新语音合成技术。这些增强功能有望提供卓越的发音准确性和对语音特征的更强控制力,从而为语音技术树立全新标杆。

DragonV2.1的主要特点

升级后的DragonV2.1 模型支持超过 100 种语言的语音合成,只需输入简短的用户语音示例即可有效运行。这一功能标志着 DragonV1 模型取得了显著进步,之前的 DragonV1 模型在发音方面面临挑战,尤其是在命名实体方面。

DragonV2.1的应用范围十分广泛,包括:

  • 聊天机器人的声音定制
  • 为视频内容配音,演员原声,涵盖多种语言

提高自然度和控制力

新模型的一大亮点在于它能够创建更真实、更稳定的韵律,从而提升聆听体验。微软报告称,与上一代 DragonV1 相比,词错率 (WER) 平均显著降低了 12.8%。用户可以通过语音合成标记语言 (SSML) 音素标签和自定义词典,对发音和口音的各个方面进行精细控制。

对深度伪造的担忧和缓解策略

这些进步虽然带来了令人兴奋的机遇,但也引发了人们对该技术可能被滥用于制作深度伪造作品的担忧。为了应对这些风险,微软实施了严格的使用政策,要求用户获得原始语音所有者的明确同意,披露合成内容的生成时间,并禁止任何形式的冒充或欺骗。

此外,微软还在合成语音输出中引入了自动水印功能。该功能在各种音频处理场景中拥有高达 99.7% 的检测准确率,增强了防止 AI 语音被滥用的安全性。

Azure AI Speech 入门

要探索个人语音功能,感兴趣的用户可以在Speech Studio上试用。此外,希望完全访问 API 的企业可以在此处申请,将这些高级功能集成到他们的应用程序中。

图片来自Depositphotos.com

来源和图片

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注