Azure AI 增强 GPT-4.1 微调速度和个性化

微软通过直接偏好优化增强 Azure AI Foundry

微软对其 Azure AI Foundry 门户以及 Azure OpenAI 服务 API 和 SDK 进行了重大改进。最新更新为 GPT-4.1 和 GPT-4.1-mini 引入了直接偏好优化 (DPO)。这种创新的微调方法允许根据用户偏好调整模型权重，并利用偏好和非偏好响应的比较。

DPO 为传统的基于人类反馈的强化学习 (RLHF) 提供了一种极具吸引力的替代方案。其主要优势之一是，它所需的计算能力和时间显著减少，同时能够有效地使模型与用户期望保持一致。企业可以利用这种方法来微调模型，使其更好地反映其特定的品牌形象、安全标准和对话细节。

除了 DPO 集成之外，微软还扩展了其 Azure AI 全球训练功能，新增了 12 个区域。此次扩展涵盖了美国东部、西欧、英国南部和瑞士北部等地区。但值得注意的是，该计划仍处于公开预览阶段。

微软预计将推出一些增强用户体验的功能，例如暂停和恢复进程的功能，以及支持持续微调的功能。此外，GPT-4.1-nano 即将引入新增区域。

全球培训的扩展对于数据主权而言尤为重要。随着欧盟近期大力倡导欧洲本地化数据管理，确保加强隐私和合规性比以往任何时候都更加重要。

为了进一步方便开发者，微软推出了专为精细调整模型量身定制的全新 Responses API。该 API 增强了各种应用程序的集成潜力，尤其有利于需要状态化、多轮对话的工作流。据微软称，Responses API“会在后台自动将所有内容拼接在一起”，从而简化用户体验。

该 API 提供了一系列功能，包括：

有关这些更新的更多信息，请查看 Microsoft 关于 Azure AI 服务的官方博客文章。