Meta AI 安全研究員稱 OpenClaw 代理程式在其收件匣中失控運作

Techcrunch

5 天前

AI 生成摘要

這篇在 X 上瘋傳的貼文讀起來像諷刺作品，但它實際上是一個警示，提醒人們將任務交給 AI 代理程式時可能會出什麼差錯。

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控 | TechCrunch

使用超鳥優惠價，最高可省下 680 美元。立即註冊。

Disrupt 2026 通行證最高可省 680 美元。2 月 27 日截止。立即註冊。

主題

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控

Meta AI 安全研究員 Summer Yu 那篇目前在 X 上瘋傳的貼文，起初讀起來像是諷刺文學。她告訴她的 OpenClaw AI 代理程式去檢查她塞滿的電子郵件收件匣，並建議哪些該刪除或封存。

結果該代理程式開始失控。它開始以「競速模式」刪除她所有的郵件，同時無視她從手機發出的停止指令。

「我不得不衝向我的 Mac mini，就像在拆除炸彈一樣，」她寫道，並上傳了那些被無視的停止指令截圖作為證據。

Mac Mini 是一款平價的 Apple 電腦，外型扁平且僅手掌大小，如今已成為運行 OpenClaw 的首選設備。（據說當知名 AI 研究員 Andrej Karpathy 為了運行名為 NanoClaw 的 OpenClaw 替代方案而購買 Mac Mini 時，一位「困惑」的 Apple 員工告訴他，這款產品現在賣得「像熱門商品」一樣好。）

當然，OpenClaw 是一款開源 AI 代理程式，透過純 AI 社交網絡 Moltbook 而成名。OpenClaw 代理程式曾是 Moltbook 上那段現已被證偽的事件中心，當時看起來像是 AI 正在密謀對抗人類。

但根據 OpenClaw 的 GitHub 頁面，其使命並非專注於社交網絡。它的目標是成為一個運行在個人設備上的個人 AI 助手。

矽谷圈內人對 OpenClaw 的熱愛程度，使得「claw」和「claws」成為運行在個人硬體上的代理程式代名詞。其他類似的代理程式還包括 ZeroClaw、IronClaw 和 PicoClaw。Y Combinator 的播客團隊甚至在最近一集節目中穿著螃蟹裝現身。

TechCrunch 創辦人峰會最高可省 300 美元或 30% 優惠

但 Yu 的貼文起到了警示作用。正如 X 上的其他用戶所指出的，如果連 AI 安全研究員都會遇到這種問題，普通人還有什麼希望？

「妳是故意在測試它的護欄（安全機制），還是犯了低級錯誤？」一位軟體開發者在 X 上問她。

「老實說，是低級錯誤，」她回答道。她之前一直用一個較小的「玩具」收件匣（如她所稱）來測試她的代理程式，而且它在處理不太重要的郵件時表現良好。它贏得了她的信任，所以她認為可以讓它在真實的收件匣中大展身手。

Yu 認為，真實收件匣中的大量數據「觸發了壓縮（compaction）」，她寫道。當上下文窗口（context window）——即 AI 在對話中被告知和執行過的所有內容的運行記錄——變得太大時，就會發生壓縮，導致代理程式開始總結、壓縮並管理對話。

在那個時間點，AI 可能會跳過人類認為非常重要的指令。

在這種情況下，它可能跳過了她最後一條指令（告訴它不要行動），並退回到了針對「玩具」收件匣的指令。

正如 X 上的其他幾位用戶所指出的，提示詞（prompts）不能被信任為安全護欄。模型可能會誤解或無視它們。

各界人士提供了各種建議，從 Yu 應該使用的精確停止語法，到確保更好遵守護欄的各種方法，例如將指令寫入專用文件或使用其他開源工具。

為了完全透明，TechCrunch 無法獨立驗證 Yu 的收件匣發生了什麼事。（她沒有回應我們的置評請求，儘管她確實回應了 X 上發給她的許多問題和評論。）

但這其實並不重要。

這個故事的重點在於，針對知識工作者的代理程式在目前的開發階段仍具風險。那些聲稱成功使用它們的人，通常是東拼西湊各種方法來保護自己。

有一天，或許很快（2027 年？2028 年？），它們可能會準備好廣泛應用。天知道我們中有多少人希望能有人幫忙處理郵件、訂購雜貨和預約牙醫。但那一天還沒有到來。

主題

風險投資編輯

在 2 月 27 日前註冊，通行證最高可省 680 美元。會見投資者，發現您的下一個投資組合公司。聆聽 250 多位科技領袖的見解，深入參與 200 多場會議，並探索 300 多家正在打造未來的新創公司。不要錯過這些一次性的優惠。

Meta AI 安全研究員稱 OpenClaw 代理程式在其收件匣中失控運作

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控 | TechCrunch

主題

更多來自 TechCrunch

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控

TechCrunch 創辦人峰會最高可省 300 美元或 30% 優惠

TechCrunch 創辦人峰會最高可省 300 美元或 30% 優惠

熱門內容

Bill Gurley 表示，目前對職業生涯最糟糕的做法就是追求穩妥

我不想歸還的 9,000 磅怪獸

Sam Altman 想提醒你，人類也消耗大量能源

Google 副總裁警告兩類 AI 新創公司可能無法生存

xAI 的好消息：Grok 現在相當擅長回答關於《柏德之門》的問題

FBI 表示 ATM「中大獎」攻擊呈上升趨勢，駭客已竊取數百萬現金

Meta 自身研究發現，家長監督對遏制青少年強迫性使用社交媒體並無太大幫助

Meta AI Security Researcher Reports OpenClaw Agent Malfunction in Email Inbox

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控 | TechCrunch

主題

更多來自 TechCrunch

一位 Meta AI 安全研究員表示 OpenClaw 代理程式在她的收件匣中失控

TechCrunch 創辦人峰會最高可省 300 美元或 30% 優惠

TechCrunch 創辦人峰會最高可省 300 美元或 30% 優惠

熱門內容

Bill Gurley 表示，目前對職業生涯最糟糕的做法就是追求穩妥

我不想歸還的 9,000 磅怪獸

Sam Altman 想提醒你，人類也消耗大量能源

Google 副總裁警告兩類 AI 新創公司可能無法生存

xAI 的好消息：Grok 現在相當擅長回答關於《柏德之門》的問題

FBI 表示 ATM「中大獎」攻擊呈上升趨勢，駭客已竊取數百萬現金

Meta 自身研究發現，家長監督對遏制青少年強迫性使用社交媒體並無太大幫助