人工智慧法官增強事實查核能力和編碼技能

人工智慧法官增強事實查核能力和編碼技能
圖片來自Pixabay

人工智慧在語言模型評估中的興起:一種新方法

在人工智慧領域,研究人員越來越多地採用大型語言模型 (LLM) 來分析其同行產生的輸出。這種方法被稱為“LLM-as-a-judge”,旨在增強人工智慧生態系統的評估能力。然而,在評估諸如長篇事實驗證、高階程式設計和數學問題解決等複雜任務時,挑戰隨之而來。

劍橋大學和蘋果公司的創新解決方案

劍橋大學學術專家最近與蘋果合作進行了一項研究,推出了一套旨在提升人工智慧評估準確性的突破性系統。該創新框架在題為《大型語言模型的外部驗證》的論文中進行了詳細介紹,它整合了外部驗證工具,旨在解決人類和人工智慧註釋者的限制。

解決人類和人工智慧評估的局限性

人類判斷和人工智慧評估都面臨著固有的挑戰。人類註釋者經常受到偏見、時間限制和疲勞的影響,這些因素可能會導致他們的評估偏向風格偏好而非事實準確性。相反,人工智慧系統經常難以應對複雜任務的複雜性,導致評估的可靠性降低。

介紹評估代理

新開發的評估代理程式是一款功能強大的工具,能夠自主判斷在評估過程中是否需要部署外部驗證工具。該代理遵循三個步驟:對領域進行初步評估、使用適當的工具以及得出最終結論。該系統的戰略設計增強了其在各種任務中的評估能力。

工具如何運作

特定工具已整合到評估代理的框架中,以提高任務準確性:

  • 事實查核工具:利用網路搜尋來驗證回覆中提出的事實。
  • 程式碼執行工具:利用 OpenAI 的程式碼解釋器來驗證程式輸出。
  • 數學檢查器:專門用於確認數學方程式和計算的專用工具。

當外部工具無法提供準確評估的結果時,可以使用基準 LLM 註解器。這種方法可以最大限度地減少不必要的處理,同時保持簡單任務的效能。

前景光明,未來整合

該框架的實施已顯示出顯著的增強,尤其是在長篇事實驗證方面,使其與真實註釋的一致性顯著提升。在編碼任務中,基於代理的策略顯著提升了多個測試基準上的效能。在數學挑戰方面,雖然觀察到了改進,但與現有基準的整體一致性仍然較低,尤其是在56%左右。有趣的是,研究表明,在評估長篇回應時,代理的準確率超過了人類評估者。

展望未來,該框架的設計充分考慮了可擴展性,允許未來整合其他驗證工具,以進一步完善 LLM 評估功能。作為其對創新與協作的承諾的一部分,Apple 計劃在GitHub上以開源形式發布該框架的程式碼,儘管目前尚未開放。

來源和圖片

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *