Azure AI 增強 GPT-4.1 微調速度與個人化

微軟透過直接偏好優化增強 Azure AI Foundry

微軟對其 Azure AI Foundry 入口網站以及 Azure OpenAI 服務 API 和 SDK 進行了重大改進。最新更新為 GPT-4.1 和 GPT-4.1-mini 引入了直接偏好優化 (DPO)。這種創新的微調方法允許根據使用者偏好調整模型權重，並利用偏好和非偏好回應的比較。

DPO 為傳統的基於人類回饋的強化學習 (RLHF) 提供了一種極具吸引力的替代方案。其主要優勢之一是，它所需的運算能力和時間顯著減少，同時能夠有效地使模型與使用者期望保持一致。企業可以利用這種方法來微調模型，使其更能反映其特定的品牌形象、安全標準和對話細節。

除了 DPO 整合之外，微軟還擴展了其 Azure AI 全球訓練功能，新增了 12 個區域。此次擴展涵蓋了美國東部、西歐、英國南部和瑞士北部等地區。但值得注意的是，該計劃仍處於公開預覽階段。

微軟預計將推出一些增強用戶體驗的功能，例如暫停和恢復進程的功能，以及支援持續微調的功能。此外，GPT-4.1-nano 即將引入新增區域。

全球培訓的擴展對於數據主權而言尤其重要。隨著歐盟近期大力倡導歐洲在地化資料管理，確保加強隱私和合規性比以往任何時候都更加重要。

為了進一步方便開發者，微軟推出了專為精細調整模型量身打造的全新 Responses API。該 API 增強了各種應用程式的整合潛力，尤其有利於需要狀態化、多輪對話的工作流程。據微軟稱，Responses API“會在後台自動將所有內容拼接在一起”，從而簡化用戶體驗。

該 API 提供了一系列功能，包括：

有關這些更新的更多信息，請查看 Microsoft 關於 Azure AI 服務的官方部落格文章。