
人工智慧在語言模型評估中的興起:一種新方法
在人工智慧領域,研究人員越來越多地採用大型語言模型 (LLM) 來分析其同行產生的輸出。這種方法被稱為“LLM-as-a-judge”,旨在增強人工智慧生態系統的評估能力。然而,在評估諸如長篇事實驗證、高階程式設計和數學問題解決等複雜任務時,挑戰隨之而來。
劍橋大學和蘋果公司的創新解決方案
劍橋大學學術專家最近與蘋果合作進行了一項研究,推出了一套旨在提升人工智慧評估準確性的突破性系統。該創新框架在題為《大型語言模型的外部驗證》的論文中進行了詳細介紹,它整合了外部驗證工具,旨在解決人類和人工智慧註釋者的限制。
解決人類和人工智慧評估的局限性
人類判斷和人工智慧評估都面臨著固有的挑戰。人類註釋者經常受到偏見、時間限制和疲勞的影響,這些因素可能會導致他們的評估偏向風格偏好而非事實準確性。相反,人工智慧系統經常難以應對複雜任務的複雜性,導致評估的可靠性降低。
介紹評估代理
新開發的評估代理程式是一款功能強大的工具,能夠自主判斷在評估過程中是否需要部署外部驗證工具。該代理遵循三個步驟:對領域進行初步評估、使用適當的工具以及得出最終結論。該系統的戰略設計增強了其在各種任務中的評估能力。
工具如何運作
特定工具已整合到評估代理的框架中,以提高任務準確性:
- 事實查核工具:利用網路搜尋來驗證回覆中提出的事實。
- 程式碼執行工具:利用 OpenAI 的程式碼解釋器來驗證程式輸出。
- 數學檢查器:專門用於確認數學方程式和計算的專用工具。
當外部工具無法提供準確評估的結果時,可以使用基準 LLM 註解器。這種方法可以最大限度地減少不必要的處理,同時保持簡單任務的效能。
前景光明,未來整合
該框架的實施已顯示出顯著的增強,尤其是在長篇事實驗證方面,使其與真實註釋的一致性顯著提升。在編碼任務中,基於代理的策略顯著提升了多個測試基準上的效能。在數學挑戰方面,雖然觀察到了改進,但與現有基準的整體一致性仍然較低,尤其是在56%左右。有趣的是,研究表明,在評估長篇回應時,代理的準確率超過了人類評估者。
展望未來,該框架的設計充分考慮了可擴展性,允許未來整合其他驗證工具,以進一步完善 LLM 評估功能。作為其對創新與協作的承諾的一部分,Apple 計劃在GitHub上以開源形式發布該框架的程式碼,儘管目前尚未開放。
發佈留言