
微软通过直接偏好优化增强 Azure AI Foundry
微软对其 Azure AI Foundry 门户以及 Azure OpenAI 服务 API 和 SDK 进行了重大改进。最新更新为 GPT-4.1 和 GPT-4.1-mini 引入了直接偏好优化 (DPO)。这种创新的微调方法允许根据用户偏好调整模型权重,并利用偏好和非偏好响应的比较。
直接偏好优化的优势
DPO 为传统的基于人类反馈的强化学习 (RLHF) 提供了一种极具吸引力的替代方案。其主要优势之一是,它所需的计算能力和时间显著减少,同时能够有效地使模型与用户期望保持一致。企业可以利用这种方法来微调模型,使其更好地反映其特定的品牌形象、安全标准和对话细节。
全球培训扩展
除了 DPO 集成之外,微软还扩展了其 Azure AI 全球训练功能,新增了 12 个区域。此次扩展涵盖了美国东部、西欧、英国南部和瑞士北部等地区。但值得注意的是,该计划仍处于公开预览阶段。
展望:即将推出的功能
微软预计将推出一些增强用户体验的功能,例如暂停和恢复进程的功能,以及支持持续微调的功能。此外,GPT-4.1-nano 即将引入新增区域。
数据主权和隐私考虑
全球培训的扩展对于数据主权而言尤为重要。随着欧盟近期大力倡导欧洲本地化数据管理,确保加强隐私和合规性比以往任何时候都更加重要。
Responses API 介绍
为了进一步方便开发者,微软推出了专为精细调整模型量身定制的全新 Responses API。该 API 增强了各种应用程序的集成潜力,尤其有利于需要状态化、多轮对话的工作流。据微软称,Responses API“会在后台自动将所有内容拼接在一起”,从而简化用户体验。
Responses API 的主要功能
该 API 提供了一系列功能,包括:
- 保留上下文以增强对话的连贯性。
- 答案生成过程中模型推理的透明度。
- 随着响应的制定,用户进度跟踪。
- 支持后台处理以及与网络搜索和文件查找等工具的集成。
有关这些更新的更多信息,请查看 Microsoft 关于 Azure AI 服务的官方博客文章。
发表回复