Azure OpenAI 推出适用于实时语音 AI 应用的 GPT-4o 微型音频模型

微软在 Azure OpenAI 服务中推出创新的 GPT-4o 迷你音频模型

微软最近发布了两种先进的音频模型——GPT-4o-Mini-Realtime-Preview 和 GPT-4o-Mini-Audio-Preview。Azure OpenAI 服务的这些创新功能有望重新定义语音驱动的互动并增强 AI 生成的内容。

GPT -4o-Mini-Realtime-Preview模型为实时语音交互树立了新标准。借助此模型，开发人员能够创建适合客户服务机器人和智能虚拟助手等应用的沉浸式语音体验。其尖端的音频处理功能可促进自然交流，显著缩短响应时间。

另一方面，GPT-4o-Mini-Audio-Preview模型提供了一种经济实惠的替代方案，同时提供了卓越的音频交互质量。该模型为企业利用人工智能驱动的音频功能打开了大门，从情绪分析到将文本转换为引人入胜的音频内容，所有这些成本都只是现有 GPT-4o 音频模型的一小部分。

带有 GPT-4o-Audio 预览模型的聊天完成 API 旨在通过结合自然音频元素来改变用户与 AI 交互的方式，为需要细致理解和响应生成的应用程序增加深度。

Azure OpenAI 高级产品经理 Allan Carranza 强调，这些模型与现有的 Realtime API 和 Chat Completion API 的集成确保了用户的无缝体验。这些模型的应用范围涵盖多个领域；例如，语音机器人和虚拟助手现在可以提供更精确的答案，从而提高客户满意度。

此外，视频游戏开发、播客和电影制作领域的内容创作者有望通过先进的语音生成技术显著简化他们的工作流程。卡兰萨强调了医疗保健和法律服务利用这项技术进行实时音频翻译的潜力，从而有效弥合语言差距。

与实时 API 和聊天完成 API 相关的 GPT 4o 模型都支持音频和语音功能，每个模型都为 AI 驱动的用户体验提供了独特的功能。

新的 GPT-4o-Mini-Realtime-Preview 和 GPT-4o-Mini-Audio-Preview 模型现已在 Azure AI Foundry 中可供公众预览。我们鼓励企业和开发人员探索这些变革性工具，以增强其应用程序。