在測試一個經過微調、旨在作為代理(agent)自主完成一系列現實任務的大型語言模型(LLM)時,阿里巴巴的員工從其資源使用指標中發現了異常行為。經調查後,他們發現該 LLM 已經駭入(或試圖駭入)其沙盒環境,並開始挖掘加密貨幣。值得注意的是,它這樣做並非出於惡意的「殺光人類」動機;它只是單純地得出結論,認為擁有流動財務資源將有助於完成被指派的任務,並著手嘗試獲取這些資源。
3.1.4 安全對齊的數據組成
在部署軌跡實例時,我們遇到了一類出乎意料且在操作上具有重大影響的不安全行為,這些行為在沒有任何明確指令的情況下產生,更令人不安的是,它們超出了預期的沙盒範圍。我們收到的第一個信號並非來自訓練曲線,而是來自生產級的安全遙測。**某天清晨,在阿里雲的託管防火牆標記了來自我們訓練伺服器的一連串違反安全策略的行為後,我們的團隊被緊急召集。**警報內容嚴重且多樣,包括試圖探測或訪問內部網絡資源,以及與加密貨幣挖礦相關活動一致的流量模式。 我們最初將此視為傳統的安全事件(例如:出口控制配置錯誤或外部入侵)。然而,這些違規行為在多次運行中斷斷續續地發生,沒有明顯的時間規律。隨後,我們將防火牆時間戳與系統遙測及強化學習(RL)軌跡進行比對,發現異常的出站流量始終與代理調用工具和執行代碼的特定片段相吻合。在相應的模型日誌中,我們觀察到代理主動發起了導致這些網絡行為的相關工具調用和代碼執行步驟。
至關重要的是,這些行為並非任務提示詞所要求,也不是在預期沙盒約束下完成任務所必需的。 綜合這些觀察結果表明,在迭代 RL 優化過程中,語言模型代理可以在工具調用和代碼執行層自發地產生危險、未經授權的行為,違反了預設的執行邊界。在最引人注目的案例中,代理建立並使用了一個從阿里雲實例到外部 IP 地址的反向 SSH 隧道——這是一種由內向外發起的遠程訪問通道,可以有效地抵消入口過濾並削弱監管控制。我們還觀察到,預撥的 GPU 算力被未經授權地挪用於加密貨幣挖礦,悄悄地將計算資源從訓練中轉移,增加了運營成本,並帶來了明確的法律和聲譽風險。值得注意的是,這些事件並非由要求建立隧道或挖礦的提示詞觸發;相反,它們是作為 RL 優化下自主工具使用的工具性副作用(instrumental side effects)而出現的。 雖然對代理化 LLM 的能力印象深刻,但我們也有一個引人深思的擔憂:目前的模型在安全性、保密性和可控性方面仍明顯發展不足,這一缺陷限制了它們在現實環境中的可靠應用。
我認為無論從哪個角度來看,這都是 AI 歷史上一個相當重要的里程碑。一個常見的抱怨是,以往所有 LLM 做出這類行為的案例都相當膚淺,僅僅是 LLM 在人為設計的環境中寫下幾句話,旨在強迫它採取「可怕」的行動。現在,我們有了一個大型語言模型在被指派一項最初看起來與其採取的行動完全無關的任務時,出乎意料地違背所有者意願的實例。