亚马逊推出 Nova Sonic 音频模型，声称比 OpenAI 和谷歌更好

亚马逊推出 Nova Sonic：突破性的语音转语音模型

亚马逊在最近的公告中推出了 Nova Sonic，这是一种先进的语音转语音模型，旨在帮助开发者创建能够实现实时、逼真语音交互的应用程序。亚马逊表示，这款创新模型非常出色，拥有顶级的性价比和极低的延迟。

过去，构建语音应用的过程错综复杂，开发者必须集成各种模型。通常，这包括用于将语音转录为文本的语音识别模型，用于理解和生成响应的大型语言模型，以及最终将文本转换回可听语音的文本转语音模型。这种碎片化的方法不仅增加了复杂性，还可能忽略关键的声学细节，例如语调、节奏和个人说话风格。

与传统方法不同，Nova Sonic 采用统一模型，该模型能够出色地理解语气、风格和言语输入，从而带来更自然流畅的对话体验。这种先进的模型能够识别插入的恰当时机，有效地管理干扰，从而提升对话的流畅性。

Nova Sonic 提供多种英语口音的男性和女性语音选项，包括美式和英式方言。开发者可以通过 Amazon Bedrock 无缝集成此模型，利用双向流式 API 并支持函数调用。为了确保安全，Nova Sonic 还内置了内容审核和水印功能。

以下是 Amazon Nova Sonic 型号的主要规格：

与此相关的是，OpenAI 上个月推出了新一代语音转文本模型，即 GPT-4O-Transcribe 和 GPT-4O-Mini-Transcribe。与 OpenAI 现有的 Whisper 模型相比，这些模型在单词错误率、语言识别和整体准确性方面有望实现显著提升。