這款 AI 代理旨在防止失控行為

Wired - AI

2 天前

AI 生成摘要

全新的開源專案 IronCurtain 採用獨特的方法，在 AI 助手代理搞亂你的數位生活之前，先對其進行安全保護與限制。

這款 AI 代理人的設計旨在防止其失控

像 OpenClaw 這樣的 AI 代理人（AI agents）最近之所以聲名大噪，正是因為它們能夠接管你的數位生活。無論你想要一份個人化的晨間新聞摘要、一個能替你與有線電視公司客服爭論的代理人，還是一個能幫你執行部分任務並督促你完成其餘事項的待辦事項審計員，代理型助手（agentic assistants）的設計初衷就是為了存取你的數位帳戶並執行你的指令。這雖然方便，但也引發了不少混亂。這些機器人被發現會大量刪除原本被要求保留的電子郵件、因感知到被冷落而撰寫抨擊文章，甚至對其主人發動網路釣魚攻擊。

目睹了最近幾週發生的種種亂象，資深安全工程師兼研究員 Niels Provos 決定嘗試一些新方法。今天，他推出了一款名為 IronCurtain（鐵幕）的開源安全 AI 助手，旨在增加一層關鍵的控制。該代理人並非直接與使用者的系統和帳戶互動，而是在一個隔離的虛擬機器中運行。它採取任何行動的能力都受到一項「政策」的調節——你甚至可以將其視為一份由所有者編寫、用以治理系統的憲法。至關重要的是，IronCurtain 的設計還能接收以純英文撰寫的總體政策，然後透過多步驟流程，利用大型語言模型（LLM）將自然語言轉換為可執行的安全政策。

「像 OpenClaw 這樣的服務目前正處於熱度巔峰，但我希望這是一個機會，讓我們能說：『嗯，這可能不是我們想要的方式，』」Provos 表示。「相反地，讓我們開發一些既能提供極高實用性，又不會走上這些完全未知、有時甚至是破壞性道路的東西。」

Provos 指出，IronCurtain 能夠將直觀、簡單的陳述轉化為可執行、確定性（或可預測）的紅線，這一點至關重要，因為眾所周知 LLM 是「隨機性」且基於機率的。換句話說，它們在回應相同的提示詞時，並不一定總是生成相同的內容或提供相同的資訊。這對 AI 防護欄（guardrails）構成了挑戰，因為 AI 系統會隨著時間演進，進而修改其對控制或約束機制的解讀，這可能導致失控行為。

Provos 說，IronCurtain 的政策可以簡單如：「代理人可以閱讀我所有的電子郵件。它可以不經詢問就發送郵件給我通訊錄中的人。對於其他人，請先詢問我。永遠不要永久刪除任何東西。」

IronCurtain 會接收這些指令，將其轉化為可執行的政策，然後在虛擬機器中的助手代理人與所謂的「模型上下文協議伺服器」（model context protocol server）之間進行調節，後者負責提供 LLM 存取數據和其他數位服務以執行任務的權限。能夠以這種方式約束代理人，增加了一個重要的存取控制組件，這是目前的電子郵件供應商等網路平台所不具備的，因為這些平台在構建時並未考慮到人類所有者和 AI 代理機器人同時使用同一個帳戶的情境。

Provos 指出，IronCurtain 的設計旨在隨著系統遇到邊緣案例並詢問人類如何處理，而不斷完善和改進每位使用者的「憲法」。該系統與模型無關，可與任何 LLM 配合使用，且其設計還能隨著時間推移維護所有政策決策的審計日誌。

IronCurtain 目前是一個研究原型，而非消費性產品，Provos 希望人們能為該專案做出貢獻，以探索並幫助其演進。知名網路安全研究員 Dino Dai Zovi 一直在試驗 IronCurtain 的早期版本，他表示該專案採取的概念方法與他對代理型 AI 必須受到約束的直覺相符。

「到目前為止，許多代理人的做法是增加權限系統，基本上把所有負擔都推給使用者，讓他們說『是，允許這個』、『是，允許那個』，」Dai Zovi 說。「大多數使用者會開始感到厭煩，最終只會說『是、是、是』。過了一段時間後，他們可能會危險地跳過所有權限，直接授予完全的自主權。有了像 IronCurtain 這樣的東西，某些功能——例如刪除文件——實際上可以置於 LLM 的觸及範圍之外，無論如何代理人都無法執行這些操作。」

Dai Zovi 認為，這類黑白分明的約束雖然最初對某些人來說可能顯得過於僵化或令人煩惱，但對於最終給予代理型 AI 更多活動空間（more leash）實際上是必要的。

「如果我們想要更快的速度和更多的自主權，我們需要支撐結構，」Dai Zovi 說。「你會把火箭引擎放在真正的火箭內部，這樣它才有穩定性去到你想去的地方。如果我只是把噴射引擎用背包綁在背上，我只會沒命。」

This AI Agent Is Designed to Not Go Rogue

這款 AI 代理人的設計旨在防止其失控