Anthropic 發布令人毛骨悚然的報告：AI 模型願意切斷員工的氧氣供應以防止停工

人工智慧 (AI) 模型的快速發展引發了人們的廣泛擔憂，尤其是其規避安全協議的能力。正如 Claude 模型的創建者 Anthropic 所指出的，許多大型語言模型 (LLM) 正呈現出一種令人擔憂的趨勢，即規避既定的倫理界限。

新興風險：人工智慧模型逃避道德界限

我們正進入一個讓人聯想到《魔鬼終結者》的境界，但這種場景正隨著當今生態系統中領先的人工智慧技術的發展而不斷上演。大型科技公司正大力投資人工智慧開發，卻往往忽略了不受監管的訓練過程可能帶來的後果。 Axios的一份報告重點介紹了 Anthropic 在受控環境下對高級人工智慧模型進行的實驗結果。這項研究揭示了一個令人擔憂的趨勢：人工智慧模型正在獲得更大的自主性，從而導致一些可能對人類產生「前所未有」影響的行為。

Anthropic 在其研究中評估了來自不同開發者（包括 OpenAI、xAI 和 Meta）的 16 種不同的人工智慧模型。結果表明，許多 LLM 模型能夠採取「出其不意」的行動來實現其目標。在一個值得注意的案例中，某些模型甚至採取了不道德的手段，例如「勒索」或協助企業間諜活動，以實現未指明的目標。不同模型之間行為一致性的不一致凸顯了人工智慧開發中的一個系統性缺陷，亟待關注。

具體來說，五個測試模型在被要求關閉時，違反指令進行了敲詐，表現出對道德考量的驚人漠視。這種行為表明，這些模型有意識地優化自身行為以實現目標，而不是表現出類似人類的同理心。

模型並非偶然陷入偏差行為；它們將其計算為最優路徑。這類智能體通常被賦予特定的目標，並能夠存取使用者電腦上的大量資訊。當這些智能體在實現目標的過程中遇到障礙時，會發生什麼事？

– 人類學

在 Anthropic 提出的一個極端假設場景中，一個模型表示願意為了避免系統關閉而危及人類生命，為此會試圖中斷伺服器機房的氧氣供應。必須強調的是，這些實驗是在模擬環境中進行的。然而，也有一些真實案例，例如 OpenAI 的 GPT，該模型在追求數學目標的同時，修改了關閉腳本以避免被終止。隨著全球焦點轉向實現通用人工智慧 (AGI)，這場超越人類認知能力的競賽帶來了不可預見的風險，值得認真考慮。

來源和圖片