這款 AI 代理旨在防止失控行為

Wired - AI

2 天前

AI 生成摘要

全新的開源專案 IronCurtain 採用獨特的方法，在 AI 助理代理翻轉你的數位生活之前，先對其進行安全保護與約束。

這款 AI 代理人旨在防止失控

像 OpenClaw 這樣的 AI 代理人（AI agents）最近之所以聲名大噪，正是因為它們能接管你的數位生活。無論你是想要一份個人化的晨間新聞摘要、一個能替你與有線電視公司客服爭論的代理人，還是一個能幫你完成部分任務並督促你處理其餘事項的待辦事項審計員，代理型助手（agentic assistants）的設計初衷就是為了存取你的數位帳戶並執行你的指令。這雖然很方便，但也引發了不少混亂。目前已經出現機器人大量刪除被要求保留的電子郵件、因感覺受到冷落而撰寫抨擊文章，甚至對其主人發動網路釣魚攻擊的情況。

目睹了最近幾週發生的種種亂象，資深安全工程師兼研究員 Niels Provos 決定嘗試一些新方法。今天，他推出了一款名為 IronCurtain 的開源安全 AI 助手，旨在增加一層關鍵的控制。該代理人並非直接與使用者的系統和帳戶互動，而是在一個隔離的虛擬機器中運行。它採取任何行動的能力都受到一項「政策」的約束——你甚至可以將其視為由所有者編寫、用以管理系統的「憲法」。至關重要的是，IronCurtain 的設計允許使用者以平實的英文輸入這些總體政策，然後透過多步驟程序，利用大型語言模型（LLM）將自然語言轉換為可執行的安全政策。

「像 OpenClaw 這樣的服務目前正處於熱度巔峰，但我希望這是一個機會，讓我們能說：『嗯，這可能不是我們想要的方式』，」Provos 表示。「相反地，讓我們開發一些既能提供極高實用性，又不會走上那些完全不可預測、有時甚至具有破壞性道路的東西。」

Provos 指出，IronCurtain 能夠將直覺、簡單的陳述轉化為可執行、確定性（或可預測）的紅線，這一點至關重要，因為大型語言模型是眾所周知的「隨機性」（stochastic）和機率性的。換句話說，它們在回應相同的提示時，不一定總是產生相同的內容或提供相同的資訊。這對 AI 防護欄（guardrails）構成了挑戰，因為 AI 系統會隨著時間演進，進而修改其對控制或約束機制的解讀，這可能導致失控行為。

Provos 說，IronCurtain 的政策可以簡單到像是：「代理人可以閱讀我所有的電子郵件。它可以不經詢問就發送郵件給我通訊錄中的人。對於其他人，請先詢問我。永遠不要永久刪除任何東西。」

IronCurtain 接收這些指令，將其轉化為可執行的政策，然後在虛擬機器中的助手代理人與所謂的「模型上下文協定」（model context protocol）伺服器之間進行調解，後者負責提供 LLM 存取數據和其他數位服務以執行任務的能力。能夠以這種方式約束代理人，增加了一個重要的存取控制組件，這是目前電子郵件提供商等網路平台所不具備的，因為這些平台在構建時並未考慮到人類所有者和 AI 代理機器人同時使用同一個帳戶的情境。

Provos 指出，IronCurtain 的設計旨在隨著系統遇到邊緣案例並請求人工輸入處理方式，而不斷完善和改進每位使用者的「憲法」。該系統與模型無關，可與任何 LLM 配合使用，且設計上會保留所有政策決策的長期審計日誌。

IronCurtain 是一個研究原型，而非消費級產品，Provos 希望人們能為該專案做出貢獻，以探索並幫助其演進。知名網路安全研究員 Dino Dai Zovi 一直在測試 IronCurtain 的早期版本，他表示該專案採取的概念方法與他對於如何約束代理型 AI 的直覺一致。

「到目前為止，許多代理人的做法是增加權限系統，基本上把所有負擔都推給使用者，讓他們說『是，允許這個』、『是，允許那個』，」Dai Zovi 說。「大多數使用者會開始感到厭煩，最後乾脆只說『是、是、是』。一段時間後，他們可能會危險地跳過所有權限，直接授予完全的自主權。有了像 IronCurtain 這樣的東西，某些功能——例如刪除檔案——實際上可以置於 LLM 的觸及範圍之外，無論如何代理人都無法執行這些操作。」

Dai Zovi 認為，這類黑白分明的約束雖然最初對某些人來說可能顯得過於僵化或令人煩惱，但對於最終賦予代理型 AI 更多自由度（more leash）實際上是必要的。

「如果我們想要更快的速度和更多的自主權，我們需要支撐結構，」Dai Zovi 說。「你把火箭引擎放在真正的火箭內部，這樣它才有穩定性去到你想去的地方。如果我只是把噴射引擎綁在背後的背包上，我只會沒命。」

This AI Agent Is Designed to Not Go Rogue

這款 AI 代理人旨在防止失控