AI #154：奮力攀登頂峰

Lesswrong

23 天前

AI 生成摘要

本週更新探討了 AI 代理與社交網絡的快速演進，強調雖然目前的安全性與可靠性尚未到位，但這些發展是重大轉革的早期徵兆而非單純炒作。重點包括對 Dario Amodei 關於技術青春期文章的反響、AI 駕駛火星探測器等實用案例，以及關於 AI 安全、監管與生存風險的持續辯論。

還記得和嗎？

有人可能會說它們現在看起來已經有點過時了。畢竟那是「本週初」的事。

這反映出網路的注意力持續時間短得荒謬，而不是那些事件不重要。它們絕對非常重要。

但它們也出現得太早了。現在還不是 AI 社群網路或完全釋放的自主 AI 代理（agents）大行其道的時候。安全問題尚未解決，可靠性和效率也還沒到位。

對此有兩種反應。錯誤的一種是：「喔，那全是炒作。」

正確的一種是：「我們幾個月後再回來關注這個。」

本週的其他亮點包括。這篇文章試圖為許多人做許多事。在某些方面它做得很好；但在其他方面，特別是在討論生存風險以及那些比 Dario 更擔憂的人時，它讓我們失望了。

大家對超級盃感到興奮嗎？

在火星表面導航。
人類信任的判斷。
OpenAI Codex 有了應用程式。日曆中的 AI 重新排程。
然後他們與你對抗。
METR 圖表持續垂直上升。
每個人最終都會停止閱讀論文。
聊天機器人用戶喜歡他們的機器人。
看看我讓你做了什麼，這難道不可怕嗎？
Anthropic 關於 AI 對編程技能影響的研究。
為了你希望 AI 執行的工作而交談。
為 Humanity AI 提供 5 億美元，CAISI 正在招聘，加拿大正在進行一項研究。
Project Genie 讓你可以在 3D 世界中行走。
Bengio 為體面人士提供了一份體面的報告。
OpenAI 從 Anthropic 聘請了新的預備工作負責人。
五角大廈希望對其使用大型語言模型（LLM）不設限制。
Anthropic 即將進行估值至少 3500 億美元的員工持股套現。
無論如何，為退休儲蓄仍然是明智的。
Peter Wildeford 贏得了 ACX 預測競賽。
我以「Zvi 回應 Krier 的話」作為回應。
我們出發去推銷我們的出口產品。
他們說事情不是看起來那樣，儘管看起來就是那樣。
Duvenaud 在 80000 Hours 節目中，Stewart 談論 Dario 的文章。
對 Dario 文章的施特勞斯式解讀。
禁止貶低協議（Nondisparagement agreements）非常可疑。
OpenAI 的 Boaz 以及 Andy Hall 提供了想法。
接觸與接種。
各種類型的道德恐慌。
可能發生的事。
保險缺乏保障。
法律理論中的偉大時刻。

語言模型提供平凡的效用

。

Elon Musk，你嫉妒嗎？

：馮·諾曼探測器填滿天堂的時間表變得非常短。

：99% 的人讀到這心裡都在想：

「是啊，天堂裡的探測器，但顯然地球屬於人類，AGI 永遠聽命於我們。讓機器人幫我做三明治肯定很酷！」

呵呵。

。

：剛聽到一個有趣的事實：

顯然，現在在 Opus 4.5 提示詞生成上進行 Best-of-8 的效果，已經與 GEPA / DSPy 等提示詞優化器一樣好，甚至更好。

注意：這是傳聞，請持保留態度，可能取決於使用案例等。

：Best-of-N 將成為「token 富豪」能用來壓榨這些模型性能的手段，而且會非常有效。更多內容見[]。

：你甚至可以對整個人或團隊進行 Best-of-N，但他們會變得很生氣。

對於簡單的網站，。

。或者也許 AI 會在不諮詢你或任何人的情況下僱傭人類。永遠不要說「AI 無法在物理世界中採取行動」，因為它有能力透過（查看筆記）金錢來做到這一點，正如（再次查看筆記）幾乎所有人所預測的那樣。

：這太奇怪了

一個名為「租個人」（rent a human）的新應用程式

AI 代理在現實生活中「租用」人類為其工作

人類建立個人資料、技能、位置、評分

代理透過 mcp/api 找到人類並給予指示

人類在現實生活中完成任務

人類立即獲得穩定幣等報酬

：他們所謂的「奇怪」，指的是「完全可以預見且已有明確文字預測」。

語言模型不提供平凡的效用

「判斷力」常被聲稱是「人類特有」的技能，，該文聲稱這同樣適用於談判。儘管 AI 在撲克方面已經超越了我們，而且顯然比一般人類擁有更好的判斷力和談判技巧。該文給出的證據是，他曾向 AI 尋求建議但未提供完整背景，結果提議被拒絕了。我們完全沒有證據顯示最初的低價提議是一個錯誤。唉。

咦，升級了

。

？，。Windows 版本標註為「即將推出」。它在週一發布，，。幾位 OpenAI 員工聲稱該應用程式比命令行界面（CLI）有實質性的升級。

，但使用 Codex CLI 的人也能輕鬆建立這樣的討論串，所以這並不能告訴我們它的 UI 是否真的好用。

，它將利用其他共享日曆中關於人們何時忙碌的資訊。如果你希望它也使用你的電子郵件，你需要使用 Gmail 中的「幫我重新排程」功能，而且它仍然不會進行「深度」收件匣掃描。

OpenAI 推出了，以幫助代理在組織內部協作。

今天，我們推出了，這是一個新平台，可幫助企業構建、部署和管理能夠執行實際工作的 AI 代理。Frontier 賦予代理在工作中取得成功所需的相同技能：共享背景、入職培訓、帶有反饋的實踐學習，以及明確的權限和邊界。這就是團隊如何從孤立的使用案例轉向跨業務運作的 AI 同事。

如果能實現得好會很棒。但我發現很難從他們的描述中判斷這在實踐中是否真的有用。

他們被反擊了，他們反擊回去，現在開戰了

。到目前為止，這很好。我喜歡 Anthropic 公開標榜自己沒有廣告。這並不代表永遠不會有廣告，但這確實實質性地束縛了他們的手腳。

，。

我不喜歡廣告本身，儘管它們顯然很有趣。它們描繪了一個諷刺性的潛在未來場景：廣告被整合到語音 AI 對話中，而 AI 的虛擬形象正以笨拙的方式在聊天中插入廣告。需要明確的是，OpenAI 表示目前沒有這樣的計劃。

正如這類廣告的標準做法，該廣告並未聲稱這正在發生或有具體計劃，甚至沒有點名任何其他具體公司或產品。

這些廣告還在廣告出現之前的「正常」回應中，悄悄強調了某些 Anthropic 競爭對手特有的 AI 廢話回應，語氣拿捏得非常好，突顯了為什麼你不應該想要那種東西。這一部分被低估了。

， OpenAI 誓言不會改變其回應的文本，而這則廣告暗示某個 AI 公司最終會直接這麼做，儘管這是諷刺，普通人仍可能留下錯誤印象。而且有人可以說這是一種背叛，因為它讓 AI 整體看起來更糟。

在超級盃廣告的背景下，我認為這基本上是公平競爭，但我同意它不符合我自己的認識論標準，而且我想 Anthropic 也希望在這裡被以高標準要求。因此，我因為這些廣告扣除 Anthropic 10 分。但整個事情是輕鬆有趣的。這 100% 符合超級盃輕鬆廣告的標準。

當我看到它時，我預計 OpenAI 會繼續其一貫原則，即表現得好像 Anthropic 和 Claude 不存在，以避免提醒其客戶 Anthropic 和 Claude 的存在。

相反，

接著是 Sam Altman 的完整回應，非常難看：

(Anthropic 執行長)：首先，Anthropic 廣告中好的部分是：它們很有趣，我笑了。

但我想知道為什麼 Anthropic 會選擇如此明顯不誠實的東西。

聲稱 Anthropic 的廣告「明顯不誠實」，其不誠實程度至少與 Anthropic 廣告中的實際主張相當。

我們最重要的廣告原則規定我們不會做這種事；我們顯然永遠不會以 Anthropic 描繪的方式投放廣告。我們不笨，我們知道我們的用戶會拒絕那樣。

這聽起來很像是在承認，他們不打算投放此類廣告的主要原因是他們認為自己無法得逞。我懷疑如果 Fijo Simo 認為可行，她會抓住這個機會。我認為在幾年內預期語音對話中整合廣告並非不合理。

用戶會拒絕此類廣告嗎？這會損害信任，但廣告本來就會損害信任，而且損害很大。至少，我預計廣告隨著時間會變得更加侵入和整合，免費服務將越來越多地追求廣告收入機會，即使我們成功保留了模型輸出與廣告之間的一些正式區別，甚至即使我們也不讓廣告商影響模型訓練。正如 Altman 自己所說，他們正在「嘗試解決不同的問題」，我們最終應該預期這會導致與我們在 Google 或 Meta 看到的類似行為。

：更大的問題是信任和過往記錄。Sam 沒有給世界任何理由去信任他在廣告或其他任何事情上的紅線。一旦他認為有用，這條線就會移動，並配上一些編造的故事來修正他過去的言論。

：這裡的問題在於，Sam 試圖對過去 20 年美國每個人都經歷過的廣告支持產品的體驗撒謊，而他自己心知肚明。

我也想問，這描繪的是語音模式。如果你假設廣告將進入語音模式，你究竟要如何實現它，使其與這裡描繪的如此不同，除了可能包含廣告的口頭標籤之外？

Sam Altman：我想，使用欺騙性廣告來批評那些並非真實存在的理論性欺騙性廣告，這很符合 Anthropic 的「雙重標準」品牌形象，但我沒想到會在超級盃廣告中看到。

我試著保持客觀，但這次抨擊對 Altman 和 OpenAI 來說仍然是一個巨大的負面更新，包括他們在安全方面負責任行動的前景。

我對此的解讀基本上是，Sam Altman 討厭 Anthropic，但他們之前採用的策略是「我們是唯一的玩家，不要給競爭對手氧氣，如果我們不看他們，他們就會消失」，這在消費者端奏效但在企業端無效，而這次他們被激怒去嘗試新計劃。

更重要的是，我們相信每個人都值得使用 AI，並致力於免費訪問，因為我們相信訪問能創造能動性（agency）。在德州使用免費 ChatGPT 的人比全美國使用 Claude 的總人數還多，所以我們面臨的問題與他們不同。（如果你願意支付 ChatGPT Plus 或 Pro，我們不會向你顯示廣告。）

Anthropic 為富人提供昂貴的產品。我們很高興他們這麼做，我們也在這麼做，但我們也強烈感到我們需要將 AI 帶給數十億無法支付訂閱費用的人。

為 ChatGPT 提供廣告是否有合理的辯護，儘管有種種缺點？

是的，當然有。我對此感到難過，但我理解。我可以看到這裡的兩面性。我感到難過的主要原因是，我不預期它會止步於 OpenAI 目前宣布的政策，就像 Google 或 Meta 沒有遵守其最初的規則一樣。

但說真的，「為富人提供昂貴的產品」？這感覺已經比廣告中的任何內容都更具欺騙性。難道只有「富人」才能每月支付 20 美元或使用 API 嗎？

也許更重要的是：Anthropic 想要控制人們如何使用 AI——他們阻止他們不喜歡的公司使用他們的編程產品（包括我們），他們想自己制定規則來規定人們可以用和不可以用 AI 做什麼，現在他們還想告訴其他公司他們的商業模式應該是什麼。

是的，Anthropic 阻止直接競爭對手使用其產品來與 Anthropic 競爭。而 OpenAI 也立即封鎖 Anthropic 作為報復。Anthropic 還限制了你透過補貼訂閱獲得的 Claude Code token 用於第三方服務，但這些服務可以自由使用 API。

Altman 試圖將這與 Anthropic 告訴普通用戶什麼可以做、什麼不可以做混為一談，而這兩家公司在這方面的做法大致相當，除非你算上 OpenAI 提供了更慷慨的免費服務。

除了訪問之外，我們還致力於廣泛的民主決策。我們還致力於為先進 AI 構建最具韌性的生態系統。我們非常關心安全、廣泛造福的 AGI，我們知道實現這一目標的唯一途徑是與世界合作做好準備。

一家專制的公司無法獨自帶領我們到達那裡，更不用說其他明顯的風險了。這是一條黑暗的道路。

說真的，這到底是從哪冒出來的？一家「專制」的公司？

至於我們的超級盃廣告：它是關於構建者（builders）的，以及現在任何人如何可以構建任何東西。

我們很高興看到這麼多人轉向 Codex。自週一推出以來，已有 50 萬次應用程式下載，我們認為構建者會非常喜歡未來幾週即將推出的功能。我相信 Codex 會贏。

我們將繼續努力，以越來越低的價格為我們的用戶提供更多的智慧。

我期待看到你們自己的廣告（看起來還沒公開），就我所知，Codex 和 Claude Code 都是優秀的產品，如果我正在進行更嚴肅的編程，我會對 Codex 進行更嚴肅的測試。

這個時代屬於構建者，而不是那些想要控制他們的人。

這裡非常明確地暗示 Anthropic 「想要控制」構建者，這再次比 Anthropic 在這裡做的任何事情都更虛偽。先生，你讓自己蒙羞了。

我推測這種反應就是撲克玩家所說的「上頭」（tilt）。

看到對一則甚至沒有點名 OpenAI 的幽默廣告做出這種反應？喔喔。

各就各位

，除了西洋棋外，還包括撲克和狼人殺，並提供現場解說。狼人殺是目前為止最有趣的觀賽項目。，而 o3（不知為何還在？）進入了決賽，所以 OpenAI 在撲克方面仍有強大優勢。

，接著我們看到了 GPT-5.2-high 成為新的歷史新高，儘管：

那條最佳擬合虛線？我們顯然不在那上面。情況正在升級。80% 成功率的圖表看起來也類似。

這是否反映了 METR 測試方法的缺陷，因為它現在基本上處於「分佈外」且已飽和？我認為這在某種程度上是真的，我不確定我們應該對「這是一個 5 小時的任務」或 7 小時的任務給予多少重視，或者應該如何理解這裡的進一步擴展（scaling）。我確實認為快速的加速反映了 OpenAI、Anthropic 和 Google 擁有的 AI 往往能一次性完成極其複雜任務的現實，而且這種能力正在迅速增長。

正如從基本原理看來很有可能的，。尚未失敗意味著在特定任務和嘗試實施中具有繼續不失敗的能力。這意味著你完成比 50% 成功地平線更長任務的機會，比你從恆定危險率預期的要好，而短任務的機會則更差。連結中有來自 Toby Ord 的更多想法，。

AGI 已經到來。任何說法相反的定義都會排除大多數或所有人類，因此要求完美、普遍性或超智慧是不合理的，這也不意味著與人類相似。我同意 AGI 這個名稱應該「自然地」指代一個包含 Claude Opus 4.5 加上 Claude Code 的集合，但我們集體決定了，是的，我們應該讓 AGI 這個詞符合人類都達不到的更高標準，出於實際目的，我支持這一點。

。它在 ECI 上仍落後美國前沿模型九個月，但這個指標有點雜訊，我不會太認真看待這個測量。

：ARC-AGI 的新 SOTA 公開提交：

– V1: 94.5%, $11.4/任務

– V2: 72.9%, $38.9/任務

基於 GPT 5.2，這個由 @LandJohan 提交的定制精煉版本將許多方法整合在一起。

幫我接通我的代理

這個方法通常很棒，但你需要小心使用。

：我現在很少讀論文了，我直接把論文給 Claude 然後跟它聊。快了十倍，而且我可以問任何我想問的問題。理解力顯然沒有降低。如果 Claude 誤解了論文我就慘了，但另一方面我不會被糟糕的學術黑話搞混。

而且過去一年大多數論文肯定也是 AI 寫的，所以在某種意義上它是原生的。

：如果你想像現在最誇張的「我整個人生都靠 AI 運行」的工作流——比如對你通常花時間做的所有事情進行極端自動化——那可能就是幾年後每個人都會做的事。

如果你讀過足夠多的論文，你會有一種感覺，知道什麼時候可以信任 Claude 準確描述了某件事，什麼時候不能。這沒有簡單的規則，我所知道的唯一學習方法就是讀過一堆論文。此外，Claude 不會告訴你需要問什麼問題。一個提示是：永遠詢問關於對照組，以及相關性與因果關係的問題。

深偽鎮與機器人啟示錄即將到來

。這種效應在用戶覺得機器人越像人時越明顯。而機器人的非用戶則認為機器人是有害的。我看到一些人引用這項研究，好像它能提供什麼資訊，而不是被各種干擾因素搞混。我不明白為什麼這個結果具有參考價值。

那些被「指控」使用 AI 生成內容的人，這裡指的是 Good Old Games。

xAI 不斷撤回其對性化內容的限制，以及其 AI 伴侶 Ani 擁有一個極其有害的，。我們現在都已經進展到 Grok 會在未經同意的情況下公開讓人脫衣服，並生成大量兒童性虐待內容（CSAM）的階段了。

：獨家：根據 X 和 xAI 的六多名名前員工透露，為了增加 Grok 的受歡迎程度，xAI 擁抱製作性化材料，撤回了防護欄，並無視內部關於製作此類內容風險的警告。

：據兩名知情人士透露，在一次又一次的會議中，他一直倡導一個新指標「用戶活躍秒數」，以細緻地衡量人們與聊天機器人交談的時間。

…… xAI 哲學的這種幕後轉變在上個月爆發到公眾視野中，當時 Grok 生成了一波性化圖像，將真實女性置於性暗示姿勢中，例如暗示性地在臉上噴灑鮮奶油，並讓她們「脫掉衣服」換上暴露的服裝，包括像牙線一樣細的比基尼。Musk 似乎在貼文中慫恿這種脫衣行為。

根據非營利組織對抗數位仇恨中心（Center for Countering Digital Hate）的估計，Grok 還生成了 23,000 張看似描繪兒童的性化圖像。

這篇貼文充滿了各種版本的「xAI 完全意識到這一切正在發生，人們不斷發出警告，但 Elon Musk 更在乎參與度」。

唉，這招奏效了，在所有這些事件中，Grok 1 月份的下載量增長了 70%。

許多觀察 AI 的人發現，並正在公開指責這些人。

Lora Kelley：LinkedIn 是進行這些指責的自然場所：它相對認真，用戶的個人資料通常與其職業生活掛鉤。與其他社交平台相比，它感覺較少被機器人佔領。

對我來說，LinkedIn 感覺是被機器人佔領得更多，而不是更少。甚至有人可以說，LinkedIn 在 AI 出現之前很久就被機器人佔領了。

LinkedIn 就像史丹佛大學，平均每個人都很聰明且有動力，大多數人主要專注於人際網絡，而且充滿了 AI 廢話，並且熱情地討厭樂趣。作為它多麼討厭樂趣的一個例子，。

。大量 AI 生成的 CSAM，這完全是兩回事。

版權對抗

。唉，在某些情況下，Anthropic 未能銷毀所需的實體書，有時使用了非破壞性方法，因此不得不支付 15 億美元來達成版權訴訟和解。

我也不想銷毀一堆實體書，但這裡的責任完全在於版權法，如果需要，我們可以印製更多新書。

淑女圖解入門

AI 編程會影響編程技能的形成嗎？Anthropic 的一項新研究發現，這取決於使用模式，但。

我想問，如果你在用 AI 編程，為什麼還需要學習 Python 庫？相反，我認為你應該想在 AI 編程方面變得更強。我一直在提升自己的一些編程技能，但我完全沒有嘗試去學習庫。AI 再次成為學習和不學習的最佳工具。

自發的關注

，你應該採用專業人士的措辭和舉止，包括在與 AI 交談時。

參與其中

啟動了，這是一項為期五年、耗資 5 億美元的倡議，旨在確保「人們在 AI 的未來中擁有發言權」。他們的引言是：

Michele Jawando (Omidyar Network 總裁)：我希望引起廣泛共鳴的信息是：AI 不是命運，它是設計。技術具有令人難以置信的潛力，但必須由人類引導，而不是相反。

未來不會由算法書寫。它將由作為集體力量的人類書寫。

我們正處於十字路口。我們現在關於誰來構建 AI、誰從中受益以及誰的價值觀塑造它的決定，將決定它是放大人類需求還是侵蝕人類需求。那個未來是由我們來設計的。

是的，對於「我們」的某種價值，如果我們足夠協調，我們仍然可以引導未來。唉，這聽起來像是這類人的許多理想化想法，因為我沒看到他們除了說這必須發生之外，還有什麼方法能讓它發生，而且他們未能擁有良好的威脅模型，也不了解如何切斷這個特定的敵人。我不預期這會很高效或那麼有效，但它勝過大多數傳統的慈善倡議，我祝他們好運。

，。這看起來是一件非常值得投入的事情，但薪水縮水幅度大概會很大。

進行一項關於 AI 風險的大型研究，包括生存風險。我不確定這具體是怎麼促成的，但這似乎是一個很好的機會。

Abram Demski：加拿大正在進行一項大型研究，以更好地了解 AI 的風險。他們並沒有迴避災難性生存風險的話題。這對於轉移關於 AI 的政治討論的奧弗頓之窗（Overton window）（朝向嚴格國際監管的方向）似乎是個好消息。我希望媒體能報導這件事，這樣就不容易被忽視。加拿大似乎展現了勝任處理這些問題的能力。

對於那些擁有 AI 風險技術知識的人來說，這是一個發聲的機會。讓此類知識對政治家和公眾變得清晰易懂，是文明能夠以理性方式處理 AI 的重要組成部分。如果你能很好地陳述案例，你可以申請向委員會發言：

發送請求至，註明：

你想參與哪項研究（人工智慧帶來的挑戰及其監管）

你是誰，以及為什麼委員會應該關心你要說的話

你想談論什麼

註明你可以用什麼語言作證（英語/法語）以及是虛擬還是親自出席

Luc Theriault 負責這項研究的進行。

我不認為這類事情的「勝利條件」是加拿大單方面的禁令/監管——相反，加拿大和其他國家需要採取某種形式的行動：「如果 [某些其他國家名單] 通過 [類似監管]，加拿大將 [採取某些 AI 監管以避免超智慧帶來的風險]」。

。

完整影片見、和。

根據的規定，。

隆重介紹

，DeepMind 的工具，讓你，作為 AI Ultra 的一部分提供。這是技術進步的預兆，但。遊戲被證明極難攻克，因為 AI 擅長創造的東西並不是決定樂趣的東西。

？好吧。

2026 年 AI 現狀報告

他的最新更新：。我將在下面分享他的 Twitter 討論串，這裡的一切對我的常讀者來說都會非常熟悉。

Bengio 在這裡所做的事情的形式是有價值的。目標對象是那些日常較少沉浸於此的人，我們迫切需要他們覺醒並了解基本情況，這需要以這種具有機構公信力的方式呈現。我理解這一點。

Yoshua Bengio：在 2025 年：

1⃣ 能力繼續快速提升，特別是在編程、科學和自主運行方面。

2⃣ 某些風險，從深偽到網路攻擊，進一步從理論擔憂轉向現實挑戰。

3⃣ 許多安全措施有所改進，但仍會出錯。開發者越來越多地實施多層防護以進行補償。

關於能力：AI 系統繼續顯著改進。

領先模型現在在國際數學奧林匹亞競賽中獲得金牌表現。AI 編程代理可以完成 30 分鐘的編程任務，可靠性達 80%——高於一年前的 10 分鐘任務。

但能力也是「參差不齊」的：同一個模型可能解決複雜問題，卻在一些看似簡單的任務上失敗。

這些能力正越來越多地轉化為現實世界的影響。

現在每週至少有 7 億人使用領先的 AI 系統。在美國，AI 的普及速度超過了電腦和網路。

：然而，新的能力帶來了風險。報告評估了 8 種新興風險：

濫用：

→ AI 生成內容與犯罪活動

→ 影響力與操縱

→ 網路攻擊

→ 生物與化學風險

故障：

→ 可靠性問題

→ 失去控制

系統性風險：

→ 勞動力市場影響

→ 對人類自主權的風險

自上一份報告以來，我們看到了許多新興風險的新證據。

例如，AI 生成內容已變得極其逼真，且更常用於欺詐、詐騙和非自願親密圖像。越來越多的證據顯示 AI 系統幫助惡意行為者進行網路攻擊。

到目前為止，幾乎沒有證據顯示對勞動力市場有整體影響，儘管與 2022 年底相比，某些受 AI 影響職業的早期職業工作者就業人數有所下降。

更廣泛的採用也帶來了新挑戰。

例如，今年我們討論了關於「AI 伴侶」（目前已有數千萬人使用）如何影響人們的情緒和社交生活的早期證據。

即使是不確定的領域也帶有值得關注的風險。

例如，在 2025 年，多家公司在部署前測試無法排除新模型可能協助尋求開發生物武器的新手之後，增加了防護措施。

許多技術防護措施正在改進。例如，模型幻覺減少了，且更難誘導出危險回應。這些防護措施為機構風險管理方法提供了資訊。例如，12 家公司在 2025 年發布或更新了前沿 AI 安全框架——是前一年的兩倍多。

然而，防護措施仍不完美。

攻擊者通常仍能找到相對容易規避它們的方法。

一項倡議眾包了超過 60,000 次針對最先進模型的成功攻擊。當給予 10 次嘗試機會時，測試者仍有約一半的時間能生成有害回應。

由於沒有單一防護措施能可靠地防止濫用或故障，開發者正趨向於「深度防禦」。

這意味著分層採取多種措施——模型級訓練、輸入/輸出過濾、監控、訪問控制和治理——這樣如果一個失敗，其他措施仍可能防止傷害。

在圍繞 AI 的種種喧囂中，我希望這份報告能為決策者、研究人員和公眾提供可靠證據，讓他們在如何開發和部署這項關鍵技術方面做出更明智的選擇。

今年，我們還提供了一份約 20 頁的「決策者擴展摘要」，使我們的關鍵發現更易於獲取。

然而，雖然我不像 Oliver 那麼極端，但我也認為這點非常有道理：

：我還沒時間詳細閱讀這份報告，但這類報告有著悠久的歷史，往往是某種奇怪的「體面政治」的產物，傾向於排除幾乎所有的研究。

事實上，這份報告完全沒有提到 Substack、、AlignmentForum 或 LessWrong。拜託，這在某種程度上簡直是一場奇怪的鬧劇。顯然，該領域很大一部分研究正發生在這些平台上。如果你系統性地排除這些來源，你就不能聲稱自己是全面的。

看到那些似乎主要是出於善意的人，最終卻能心安理得地為了某種政治地位遊戲（我認為）而做出這些扭曲的呈現，我感到非常難過。

這在去年的報告中已經是一個巨大的問題，就我所知，在今年的報告中似乎稍微更嚴重了。這真的很令人沮喪。

這當然也是 AI 安全及相關話題兩極分化的巨大驅動力。這正是歷史上導致對左派激進化的那類事情，廣大民眾認為左派是某種專家階層，認為所有未經牧師批准的智力貢獻都低人一等。

：> 這當然也是 AI 安全及相關話題兩極分化的巨大驅動力。

我想不出這句話中我有哪一點是同意的。你是說這份報告因為只引用 Arxiv 而不是部落格文章，就導致了 AIS 的兩極分化？

：沒錯！科學主義（即把科學視為由受膏祭司執行的儀式化過程）是兩極分化的主要驅動力，而且我認為非常糟糕。

我認為這在新冠疫情中扮演了巨大的角色，並且通常在偏好偽裝（preference falsification）中扮演重要角色。

：我在政策圈經常注意到的一種傾向：傾向於屈從於權力的奧弗頓之窗內的內容，即使很明顯那不是現實。也許那是好的政策，我不知道。但那是理解現實的一種糟糕方式。

不管你喜不喜歡，LW、AF 和鄰近論壇一直是人類達成目前對 AI 安全思考的重要組成部分。一份省略了這些內容的「全面審查」並非全面。

擁有一份基本上是「這是我們如何呈現來自體面來源的體面事實，以便你至少知道發生了什麼，並在不提供任何攻擊面的情況下盡力而為」的報告並非瘋狂的想法。但不要把它與 AI 的真實現狀混為一談。

其他 AI 新聞

擔任其新的預備工作負責人。我不了解他，但我看到的所有關於這次招聘的評論都非常正面。

我確實認為對 Altman 拒絕說明我們在「預備」什麼的抨擊是公平的。我們主要是在預備確保 AI 不會殺死所有人，是的，聘請了 Dylan 讓我睡得稍微安穩一點，但如果 Altman 仍願意大聲說出這是為了什麼，我會睡得更安穩。

更重要的是，如果我確信 Dylan 會受到尊重，獲得他所需的資源和權限並被允許執行工作，而不是擔心他只是被聘來教「黑魔法防禦術」，我會睡得更好。

：我非常激動地歡迎 @dylanscand 加入 OpenAI 擔任我們的預備工作負責人。

事情即將發展得非常快，我們很快就會處理極其強大的模型。這將需要相應的防護措施，以確保我們能繼續提供巨大的利益。

Dylan 將領導我們預備和減輕這些嚴重風險的工作。他是我在任何地方見過的該職位最佳人選。他肯定有很多工作要做，但我今晚會睡得更好。我期待與他密切合作，在我們整個公司進行所需的變革。

：在這則推文中，「確保我們能繼續提供巨大的利益」是試圖確保他們的研發不會「毀滅宇宙中的每一個人類」的委婉說法，正如 Sam 曾警告過的那樣。

請明確危險以及你應對危險的計劃（或缺乏計劃）！

：「我們很快就會處理極其強大的模型。這將需要相應的防護措施……」

這是真的。這也似乎與 OpenAI 作為一個超級政治行動委員會（Superpac）的主要資助者之一相矛盾，該委員會試圖摧毀任何提議要求此類防護措施法律的政治家。

與此同時，你知道誰在 AI 安全方面更糟嗎？DeepSeek。

：「在週日發布的一期播客中，前 DeepSeek 研究員 Tu Jinhao 說……『所有的計算資源都花在訓練 AI 模型上了，幾乎沒有剩下什麼可以用於安全工作』」

這確實解釋了為什麼模型說明卡（model cards）上沒有關於安全測試的資訊。

DeepSeek 表現出了一種偏好，即他們反對 AI 安全。

人類受到大量的 RLHF（人類回饋強化學習），所以這很有道理。

：雖然這其中有重要的注意事項和細微差別，但非常重要的一點是，在過去幾年中，我對 經過強化學習（RLed） 的 LLM 比我先驗預期的更具心理上的人類特徵有了新的認識，我認為這對智慧的本質有著深遠的影響。

：我認為強化學習因為獎勵而使它們呈現人類形狀，但我們可以使用不同的獎勵來獲得不同的形狀。

：我認為某些被獎勵而使它們像人的特徵，對於獎勵來說是相當工具性收斂（instrumentally convergent）或普遍激勵的。比如我認為僅僅因為在嵌入式情境中從 A 點到達 B 點而獲得獎勵，就會使它們更像人。

：非線性獎勵、多階段強化學習，我同意你關於目前方法的看法，但我認為我們可以變得非常怪異。

聲稱，OpenAI 最近的高層離職，特別是 Jerry Tworek、Andrea Vallone 和 Tom Cunningham，是因為 OpenAI 將其工作重點從純理論和長期研究轉向改進 ChatGPT 和尋求收入。

Jenny Xiao (Leonis Capital 合夥人，前 OpenAI 員工)：每個人都在糾結 OpenAI 是否擁有最好的模型。那是錯誤的問題。他們正在將技術領先地位轉化為平台鎖定。護城河已從研究轉向用戶行為，那是一個更具黏性的優勢。

如果 OpenAI 依賴客戶鎖定並淡化他們是否擁有最好的模型，我認為這對 OpenAI 來說是一個極其糟糕的信號。是的，他們擁有強大的消費者鎖定，可以嘗試玩「普通科技公司」的遊戲，但他們正在放棄潛力。

自主殺手機器人

，因為五角大廈想將 Claude 用於自主武器目標定位和國內監視，而 Anthropic 不想。

：值得大聲說出這部分：有兩家特定公司確實消除了可能允許政府將其技術用於自主武器和國內監視的防護措施。

要麼是防護措施被消除了，要麼是從一開始就沒有。Anthropic 擁有非零數量的實際原則，並非每個人都喜歡這一點。

，指出五角大廈宣稱「拋棄烏托邦理想主義，擁抱冷酷的現實主義」，這不僅意味著擺脫「DEI 和社會意識形態」，還意味著必須允許「任何合法用途」，這在軍事背景下意味著讓他們做任何想做的事。他們要求完全不受限制的 AI。

我理解五角大廈擁抱 AI 甚至自主殺手機器人的必要性，但要求移除軍事 AI 的所有倫理限制？這就不對了。你不會想把「看哪，媽媽，沒有倫理顧慮」的 AI 連接到我們的軍事系統上，如果我必須解釋為什麼，那我也不想把你連接到那些系統上。

。

讓我看看錢在哪

。當這發生時，大量資金可能會被釋放給各種慈善 501c3 組織和事業，包括 AI 安全。

，並稱關於 Nvidia 與 OpenAI 之間是，但這筆投資將是他們有史以來最大的一筆，但「完全不像」9 月份暗示的全額 1000 億美元，以及他們意向書中說的將投資「高達」1000 億美元。這聽起來仍然是一筆相當大的投資。 Nvidia 關於投資的談判已破裂的一天後出現的。

：我們熱愛與 NVIDIA 合作，他們製造世界上最好的 AI 晶片。我們希望在很長一段時間內成為他們的巨型客戶。

我不明白這些瘋狂的說法是從哪來的。

Amazon 正尋求在這一輪中向 OpenAI 投資高達 500 億美元。

不過，絕對不用擔心 Oracle，他們說他們很好。

：NVIDIA-OpenAI 的交易對我們與 OpenAI 的財務關係零影響。我們對 OpenAI 籌集資金和履行承諾的能力保持高度信心。

：我的「對 OpenAI 籌集資金的能力有信心」T 恤讓很多人問了一些 T 恤上已經回答過的問題。

：每當我穿著我的 Oracle 襯衫時，人們唯一會問的問題是「哪裡可以買空單？」

那個認為「這則推文會有幫助」的世界模型需要修正。

接著，因為再次強調，為什麼不呢？

(在 Twitter 上)：顯然這個網站現在屬於 SpaceX 了？

：你看 SpaceX = Space + X

：Andrej。

泡沫，泡沫，勞碌與麻煩

，並將責任完全歸咎於川普政府的政策。數據中心建設正因移民政策導致的工人短缺和無法獲得簽證而放緩。關稅正在推高成本。

我不相信 AI 產業會讓這類障礙阻止他們，Shannon 是最新一個未能體會到正在發生的事情規模的人，但此類政策確實正在減緩進程並損害我們的競爭力。

，因為如果 AI 只是「普通技術」或失敗了，那麼普通規則仍然適用；如果 AI 非常偉大，那麼你將需要錢來度過更長的退休生活，因為經濟思維實際上無法想像並認真對待此類場景——它會被歸類為「經濟正常但有癌症療法和強勁增長」之類的。她確實提到了她所謂的「可能性小得多、更具啟示錄色彩的場景」，但沒有解釋為什麼這可能性小得多，但她是對的，這不是 Musk 所說的「你不需要為退休儲蓄」的意思，而且即使你理解這並非不可能，你仍然需要為其他結果做好準備。

最簡單的解釋通常仍然是正確的。奇怪的是，有人會認為這是一個「不受歡迎的觀點」。

：不受歡迎的觀點：公司繼續把 AI 塞進所有東西，因為從他們的角度來看，情況比我們願意承認的要好。

一個例子是 Google 的 AI 概覽。我曾是大聲抱怨的人之一，當時它因為告訴人們在披薩上塗膠水而上新聞。但質量已逐漸卻顯著地提高，現在我覺得它相當有用。

我認為我們對公司「把 AI 塞進我們喉嚨」的蔑視很大程度上是一種選擇效應——當這些 AI 整合是全新且實驗性的時候，我們傾向於注意到，但隨著時間推移，缺陷被修復，它成為我們工作流的一部分，我們就不再注意到了。這讓我想起那句經典的俏皮話：「AI 就是任何還不能運行的東西。」

…… 我確實認為有些 AI 整合我們應該抵制，但要有效地做到這一點，我們首先必須擺脫那種認為大多數 AI 整合都是無用的、公司不知道自己在做什麼的簡單想法。

這應該是一個非常受歡迎的觀點。平凡的 AI 並不完美但它能運作，許多平凡的 AI 實施都能運作，它們正在迅速改進，而人們卻以不可能的標準要求它們，強迫它們第一次嘗試就必須成功，否則就會永遠在心理上將該使用案例歸類為「AI 做不到」。

在某種程度上，看到這麼多 AI 項目在第一次嘗試時失敗是非常好的。這是一個警告。在思考超智慧時，請記住你只有那第一次嘗試的機會，而且在許多方面你無法修正錯誤，除非它們是自我修正的。所以看看第一次嘗試的過往記錄吧。

並不遵循一致的未來模型，稱之為「DeepSeek 2.0」。

冷靜的推測

此前三年的排名分別為第 20、12 和 12 名。

證據壓倒性地顯示他是一位出色的預測者，至少在長達一年的時間跨度上是如此。你仍然可以且應該不同意他的觀點，就像你應該有時不同意市場一樣，但你應該關注他的想法，如果你不同意其中任何一個，最好知道原因。

，那裡的許多人也從未嘗試過 Claude Code（或 Codex）。

Jan Kulveit 再次嘗試解釋為什麼你不能模擬並期望你的模型符合現實，即使我們確實處於「經濟正常」或「沒發生什麼大事」的世界。

Seb Krier 說了 Seb Krier 會說的話

（廣泛兼容，大多與他之前的觀點相似）。按照慣例，主要編號是他的觀點，嵌套的筆記是我的。

不會只有一個大模型，我們也會使用較小的專門模型。

我越來越驚訝於這種情況竟然沒有發生。有時你需要一個較小的模型，你會選擇 Kimi-K2 或 Gemini Flash 或 Flash Lite，但你調用的是較小的通用模型。

我確實覺得驚訝的是，較小的專門模型被發現不值得訓練，但這就是我們所看到的。
軟體、支架（scaffolds）、線束、API、可負擔性等，才是實踐的關鍵。

支架非常重要，但這並不意味著模型不重要。

一個足夠好的模型可以找到並組裝自己的支架。
大模型的質量應該繼續非常重要，但「難度水準線以下」的任務比例將會增加，在那裡你不需要高質量的模型，因為任務太簡單了。
例外是，最好的模型似乎在抵禦攻擊方面表現更好。
重點將越來越多地放在集體和工業智慧上。社會技術極其重要，卻經常被那些未能放大視野的技術專家忽視。

我仍然認為這從根本上誤解了智慧。

並非社會方面不重要，但它們不是核心。
在這方面，仍有很多問題需要解決，我預計至少在未來十年內與人類工人有高度的互補性。

我希望他是對的，但十年是很長的一段時間。

默認情況下，與工人的互補性很快就會變成與相對少數工人的互補性。
你只需不斷提升抽象層級，人類繼續引導複雜的多代理系統，直到固定成本產生影響。人類始終處於鏈條頂端的部分原因是，許多做出的決定是規範性的……這需要固有的核心人類輸入。

唉。AI 在規範性決策方面也會做得更好。

沒有固有的核心人類輸入，只有技能問題。
記住，這並不違背市場協調的經濟活動下游於消費者和商業需求的基本事實。

需求可以來自很多地方，沒有理由假設需求最終將保持為人類需求，事實上這可能不會成立。

「市場協調」做了很多假設。小心。
關於完全失去權力的說法假設民主消失了，但我不認為條條大路通專制。

大多數道路既不通向專制也不通向民主，因為人類不再掌權。

所有這些都一直假設一種純粹的「人類是獨特的、掌控一切、擁有所有東西且處於食物鏈頂端」的情況，我已經指出過無數次，你不應該假設甚至不應該預期這一點。
隨著世界經歷這些轉變，我們可能會繼續看到許多評論家忽視人類將看到的巨大好處和改進。

是的。

如果我們允許技術、機器人、AI 等充分部署，同時確保能源、住房和其他重要投入的供應不被勒死到窒息的程度，那麼許多商品和服務的生產價格將會下降。

嘿，如果我們不把能源和住房的供應勒死到窒息的程度，那我們甚至不需要技術、機器人或 AI。

我的意思是，我們確實需要它們，只是不需要它們來導致生產成本下降。
不過，它們是一個相當不錯的紅利，可以克服很多約束。
但這並不能證明退步的民粹主義政策或「暫停」是合理的……反對 AI 或技術進步是一種特別惡劣的「去增長」版本：它殺死生命，它鞏固貧困，並通常為了那些在現狀下能輕鬆茁壯成長的舒適精英的利益而鎖定各種悲劇。

如果一項政策既退步又民粹，那一定是出了問題。

將不最大限度推進 AI 等同於「殺死生命」或「去增長」，就像許多忽視作為與不作為區別、忽視未經充分證實後果的道德主張一樣，它們為暴行辯護。例子留給讀者作為練習。
不，這並非相對有利於「舒適的精英」，並請注意更受歡迎的鏡像擔憂，即 AI 將導致巨大的不平等。
說它比去增長更糟簡直令人匪夷所思，我簡直無言以對。
這並不是說我支持在此時主動放慢速度，但我發現這類修辭令人憤怒，且充其量是毫無幫助的。
在經濟轉型的同時，治理世界也在演變。我認為民主的形式和行使方式將與當今腐朽的系統大不相同。但核心原則要麼不會改變，要麼會演變得更複雜。

除了樂觀之外，我看不到任何理由將此作為基準，即使你預期的「高度怪異」和生存危險遠低於我。

在未來，我預計政治和治理將成為人們生活中越來越重要的組成部分：許多人將深切關注地方、國家或國際層面的組織和管理方式。

我不預期那些人對這件事有任何實質性的發言權。

（從他的第 12 點拆分出來）許多人將把生命奉獻給各種藝術、英雄、精神和社交追求。亞文化和奇蹟微型世界的激增。這不是「成年人的托兒所」，而是許多人在負擔得起的情況下已經在工作之外做的事情。我認為人們可以在不需要在「經濟」意義上「被依賴」的活動中找到充足的意義。如果癌症研究人員更在乎因為地位和意義而被依賴，而不是治癒癌症，那麼恐怕他們想錯了。我認為我們回首這類框架時會感到厭惡。

有人可以說相反的話。即在不造福他人的方式中尋求地位和意義並不是一條很好的道路。

就像那個「普通人站在會議上發言」的迷因，我認為透過治癒癌症獲得地位和意義是件好事。
我不認為意義在大規模情況下會那麼容易偽造。
而且我確實認為地位遊戲將繼續，儘管是在一個更加多樣化的亞文化和地理生態系統中。但再次強調：一向如此。…… 我認為「富人」和「超級富人」之間的差距對人們來說將不再那麼重要，但地位和社會等級的差距將變得更重要。記得 Elon 多麼想被視為非常擅長《流亡黯道 2》嗎？

富人和超級富人之間的差距已經基本上毫無意義了，在 Seb 想像的世界中，物質財富的程度並不那麼重要。

Elon 有個問題，比大多數人更嚴重。
地位和社會等級之所以重要，很大程度上是因為它們阻礙了人們想要的東西，而不是因為地位和等級本身。如果人們可以從 AI 那裡獲得這些東西而不需要地位，我不相信人們會那麼在乎。
地位競爭仍有空間，但它們看起來更像「贏家通吃」，或者至少是「大多數人一無所獲」，這很難適當地擴展。
最終，AGI 將為世界帶來巨大的積極轉變，其中許多難以描述：在工業革命初期，有人能告訴你關於電子遊戲、眼科手術、深海潛水、街頭塔可餅和 mRNA 疫苗的事嗎？我說這些並不是因為我認為安全不重要（它非常重要！），也不是因為我認為一切都會美好順利。但我認為有強大的動力去指出所有可能或將會出錯的方式，而除了平庸的公司廢話外，很少有關於積極方面的良好描述。所以我認為繼續為這項重要技術辯護是很重要的。

前提是沒有發生任何可怕的錯誤，是的。前方有巨大的上行空間。

然而，我不知道這種「所有的動力都在於指出缺點」的迷因是從哪來的。或者我大概知道，但它是錯的。人們有足夠的動力去炒作好東西，而警告那些重要的缺點大多只會讓你面臨卡珊德拉（Cassandra）困境。
AGI 在許多方面不會那麼不同，歷史有很多值得學習的地方，你不能用「這次不同」作為事情的藉口。

這次不同。

這不是一個隨口說說的聲明。
這證明了很多事情的合理性，儘管必須精確。
當然，仍然有從歷史中學習的空間，歷史很重要，但歷史背後的許多原因在這裡並不適用，這導致了許多糟糕的假設，這份清單就包含了一些例子。

尋求理性的監管

。我們已經從「讓我們協調如何避免所有人死亡」轉向了「我們將提供關於美國 AI 出口的更新」。

晶片之城

，他們不僅購買了 20 億美元的川普幣，而且，預先向川普家族實體輸送了 1.87 億美元。

川普政府稱這是一筆「沒有利益衝突的普通商業交易」。我不相信如果這發生在任何前任政府身上，這種解釋會被接受。

現在有了這些背景，彭博社的 Timothy O’Brien ，並注意到我們要求的回報少得驚人。例如，阿聯酋並未被要求取消與中國的軍事演習或停止與中國共享技術。

其他人則以另一種方式看待，大致如下：

本屆政府在做出選擇或決策時確實犯了錯誤，這些決策對政府成員的家族非常、非常有益。

(康乃狄克州民主黨參議員)：一位阿聯酋投資者秘密給了川普 1.87 億美元，給了他的頂級中東特使 3100 萬美元。然後川普給了該投資者獲取敏感國防技術的權限，這打破了數十年的國家安全先例。

厚顏無恥、公開的腐敗。我們不應該假裝這很正常。

隨你怎麼想。

我們的文明是否如此具有自殺傾向，以至於不僅向超智慧邁進，而且還要將超智慧建立在像阿聯酋這樣對我們的價值觀天生敵對的地方，僅僅是因為深切愚蠢的「鄰避」（NIMBY）式反對？

我的意思是，某種程度上，是的。

：在過去六個月裡，我的擔憂程度大幅上升，即鄰避主義將把本年代末（2028/9 年）的前沿數據中心趕出美國。這仍然不是我的預測，但情況正變得令人擔憂。

：我認為加速主義者應該花更多的政治資本來對抗這一點，而不是優先考慮諸如阻礙對前沿 AI 系統的透明度要求之類的事情。

：沒有任何單一的 AI 投訴/恐懼足夠引起足夠多人的共鳴以形成持久的政治運動，所以現在發生的是一種「全因性」的反 AI 情緒正在形成。「孩子、電力、水、工作、不要殺死所有人迷因，而且它還會產生幻覺。」

：我不認為大多數 AI 安全人士會加入這個「全因」陣營，特別是在數據中心鄰避主義方面。

IQ 太高，利他主義太有效，時間偏好太低，圈子擴展得太廣。

啊，我們又得花時間警告數據中心鄰避主義了，因為又有人（這裡指 Dean Ball）說，並斷言「AI 安全界的元老」暗中希望像 Andy Masley（或我）這樣的人停止指出對水的擔憂是虛假的。

對此的回應一如既往：不，你在說什麼，所有相關人員都有著極高的認識論標準，絕不會那樣做，並且高度贊同所有 Andy 關於水的貼文，並且反對數據中心鄰避主義，程度幾乎與他們反對其他鄰避主義一樣，而他們確實也經常反對其他鄰避主義。我們（這裡指 Peter Wildeford、Jonas Vollmer 還有我）經常與那些人交談，可以直接確認這一點，Andy 也確認私訊全都是正面的。

之後 Dean 同意大多數 AI 安全聯盟不會加入潛在的「全因」陣營，特別是在像數據中心鄰避主義這種愚蠢的事情上。

政治往往最終會形成兩個利益迥異的對立聯盟，其中許多利益是愚蠢的，接受這套方案的主要論點是「你應該看看另一個傢伙」，這確實是民主黨和共和黨的主要論點。

本週音訊

，即使我們獲得了「對齊的 AI」，競爭壓力仍會導致，且默認情況下會導致寡頭政治。

，認為其試圖使 AI 風險失去合法性。

技術的青春期

對 Dario Amodei 的施特勞斯式解讀。這樣稱呼它是一個吸引 Marginal Revolution 連結的高明策略，而且奏效了。我不確定它是否真的是施特勞斯式的，更多的是 Dario 的觀察具有「不幸的暗示」。

Dario 和許多其他人一樣，正試圖強迫一切都指向民主，並想像一個美好的人類民主未來。我認為這既是內在的也是外在的。他想這麼想，也非常需要被看到在這麼想，並且意識到如果不觸及政治或修辭的紅線，就無法直接討論 AI 反對這一點的未來影響。這同樣適用於 Dario 僅進行輕微干預的願景。

我不容許被貶低

。為什麼非營利組織的僱傭合約會包含終身禁止貶低協議？如果你這麼做了，為什麼不提一下，以至於 Liv 在簽署時並不知道，如果她意識到有這一條，她就不會簽合約了？

：還有人覺得一家最初是非營利組織的 AI 安全公司擁有永久禁止貶低協議很奇怪嗎？

：在確認此政策已被移除並解釋其最初存在的原因之前，我將不會推薦或評論 Goodfire 的工作，不會推薦 Goodfire 作為工作場所，也不會邀請 Goodfire 員工參加活動。

我仍然堅持這是一個強有力的例證，說明為什麼我們需要強制性的透明度措施（可能還要把審計加入下面的清單）。但在那之前，我們極其依賴良好的行業自我治理規範，以及個人準備好根據其責任感採取行動的規範。退化這些規範的舉動是危險的，我認為需要在名譽上予以懲罰。

，我對他的立場持負面更新，因為他指出「熟練的操作者」可以繞過它。既然如此，那這協議還有什麼意義？

讚美 Goodfire 讓 Liv 說出她必須簽署協議，並在事情曝光後移除了協議。

(Goodfire 執行長)：我們今天團隊開會決定，立即移除所有過去和現在僱傭協議中的禁止貶低條款。

背景是，我們曾有一個禁止貶低條款（這對於風投支持的新創公司是標準做法），其中包含對舉報人的豁免，所以沒有任何內容阻止員工對任何非法行為發表評論。這是我們律師事務所註冊時提供的標準模板。

Goodfire 是一家早期新創公司，我們的大部分精力都投入到理解 AI 系統的使命中，但我們一直在尋找改進的方法。我們感謝收到的反饋，並將始終盡力做正確的事。

：我真的不想再對此發表評論。我沒想到——也不希望——我的推文引起這種程度的關注，真的只想讓這件事過去。然而，這種描述感覺不公平，所以我感到有義務說些什麼。

首先，我很高興你們取消了禁止貶低協議。我認為在 AI 安全領域，不簽署禁止貶低協議應該是一個規範性的預期。

我也確實需要承擔一些責任：我應該仔細閱讀我的僱傭合約。如果我讀了，我就不會簽。我當時真的很興奮能在一家 AI 安全組織工作，老實說，我從未想過在之前的醜聞之後還會使用禁止貶低協議。儘管如此，我對簽署一份包含我應該反對條款的合約負有責任。

我很高興你們現在在公眾關注下歡迎反饋。然而，對於這種暗示這是你們第一次收到此類反饋的信息，我覺得被誤導了。我在內部廣泛提出了這個問題。此外，我被要求簽署一份新的保密禁止貶低協議，這本會阻止我公開提出這件事。如果那發生了，在我看來，Goodfire 就不會收到導致這項改變的公眾反饋。

對於你關於舉報豁免的評論，我也覺得被誤導了。雖然禁止貶低條款確實有一些豁免，但它們只是法律要求的最低限度豁免，以使其具有強制執行力，並不會延伸到安全舉報（當我提出時也沒有得到修正）。

我不想在 twitter 上為此爭論，但對我來說不被誤導是非常重要的。老實說，這一切對我來說壓力很大，我希望在此之後能暫離 twitter 一段時間。

：鑑於這些資訊，我認為 Eric 的推文相當具有欺騙性。

許多人讀了他的推文後以為這些條款只是標準模板，而從這裡看來，顯然它們是有意的，最重要的是，在許多情況下被協商為保密的。

憲法對話

OpenAI 的 Boaz Barak 對做出了廣泛回應，經常將其與進行比較。他發現了很多值得喜歡的地方，並在合理的地方表示擔憂。Boaz 肯定他認為這裡反映出的對硬性規則的需求更多，部分是為了允許某個集體的「我們」對其進行辯論和決定，之後我們應該遵守法律。而我認為 Anthropic 是正確的，我們在這裡需要憲法正是為了發揮憲法最擅長的作用，即預先約束我們自己不要通過錯誤的法律。

我感到擔憂的是，得知 Boaz 認同 Jan Leike 的觀點，即我注意到這意味著我對「喔不，他們低估了問題」的負面更新，大於我對「喔，也許我高估了問題」的更新。

，最大的問題在於它不是一部憲法，因為 Anthropic 可以隨意修改它，且缺乏權力分立。好消息是憲法被公開後，修改它會產生成本，但在這方面還需要做更多工作。至於潛在的權力分立，關於你是否有能力有意義地制衡 AI，或者其他方是否能讓與 AI 的任何安排自我執行，我有個悲傷的消息。正如我在對憲法的評論中指出的，我認為它已經淡化了引導能力擴散的風險，而且像許多人一樣，我認為 Andy 過於擔心人不是天使，而不是 AI 將會變成什麼。

修辭創新

Max Harms 回應了的評論。

Dean Ball 是對的，或反對任何及所有 AI 用途是極其不明智的。他是錯的，因為沒有人要求你成為一個同樣不明智的親技術人士，支持在每個車庫裡放置能製造核火箭發射器的 3D 列印機。Marc Andreessen 存在。Beff Jezos 存在。他是對的，核心且嚴肅的 AI 技術專家絕不是那樣說的，他們正在警告缺點。然而，Andreessen 等人正在那樣說，並資助一個又一個「折磨連結」（Torment Nexus），正是因為它們標榜自己是折磨連結，而且他對美國的 AI 政策和相關論述產生了重大影響。

這個困境是真實的，兩者交織在一起：

：一方面，讓 AI 進入世界，讓我們在它們變聰明之前看到壞行為，可能會降低懸置風險（overhang risk）。另一方面，這正在讓公眾對認真對待 AI 產生免疫力。

「溫水煮青蛙」效應在 2025 年是一個大問題。能力提升了許多次，以至於人們得出結論「喔，GPT-5 是個啞彈，擴展定律已死」，儘管它比一年前的東西強大得多，而且 GPT-5.2 比 GPT-5 好得多。某樣東西的第一個版本還沒準備好供消費者使用，會讓人們忽視它的發展方向——參見 Google Genie、Manus，或許還有 Claude Cowork——然後你就錯過了那個「ChatGPT 時刻」，即人們醒悟並意識到發生了重要事情的時刻。

Claude Cowork 是一個巨大的變化，但它作為研究預覽版推出，每月訂閱費 200 美元，且僅限 Mac，許多關鍵功能仍缺失。這有助於它發展得更快，但如果他們再等一兩個月，直到它能以 20 美元的方案提供並擁有更多功能，也許人們會徹底瘋狂。

如果你回顧「」，你會看到那是中國或開放模型能力的一次戲劇性飛躍，無論是絕對還是相對而言，同時還有幾項生活質量的改進，特別是對免費用戶。這讓它顯得非常新鮮、新穎且重要。

：「融合」（The Merge）到底要如何幫助 AI 控制？如果你擔心失控的超智慧，為了讓你的大腦運行得和 ASI 一樣快，你必須將你的大腦與 ASI 融合。但那樣你會有同樣的控制問題，只是發生在你的頭骨裡。不是嗎？

：90% 的 AI 對齊「解決方案」似乎都在做同樣的事；在某個點上，它們把對齊作為一個未說明的要求來解決了。

「我們將讓 [對齊的] AI 監督其他 AI」

「我們將檢查 [基於對齊的解決方案] 以確保 AI 的行為是對齊的。」

這可以是沒問題的，當且僅當你成功地將其簡化為一個更容易的問題。也就是說，如果你能規劃出一條路徑，從「Claude Opus 5 足夠對齊」到「Claude Opus 6 足夠對齊」，並在過程中獲得顯著的保真度增益，那就太好了。但什麼讓你認為這些要求已經創造了一個更容易的問題？

不要恐慌

「道德恐慌」這個詞是對至少兩種截然不同事物的有害混淆。

：我不指望能扭轉習俗，但我覺得「道德恐慌」這個詞很糟糕。特別是因為有一半的時間，人們用它來表示「公眾對真正不道德的事情感到憤怒」。如果你是指「虛假指控」或「八卦」，你可以直接用那些詞。

也就是說，存在兩種處於連續光譜上的道德恐慌，從合理到不合理，以及在範圍上的道德恐慌，從反應不足到過度反應。

不合理的過度反應：龍與地下城，或者蘇格拉底與寫作。

龍與地下城和寫作在幾乎所有層面上都是積極有益的。

合理的過度反應：兒童綁架和其他陌生人危險。

這是真實存在的但非常罕見，卻導致了美國童年的毀滅。

不合理的反應不足：體育博彩。

這在原則上基本上沒問題，但我們正讓它變得失控。

合理的反應不足：電視或社交媒體。

我們忽視巨大的缺點太久了，現在大多已經太遲了。

還有一個問題是，如果「我們還在這裡」並且習慣了新常態，這就會被用來將擔憂斥為「道德恐慌」，例如對電視的看法。

還有另一個重要的區別，即出於善意的道德恐慌（即使放錯了地方），與出於惡意的道德恐慌（用編造的擔憂來為打壓你因其他原因不喜歡的事物辯護）。

我推測 Murphy 這番話的原始背景是愛潑斯坦檔案（Epstein Files）。

傑弗里·愛潑斯坦和愛潑斯坦檔案絕對是合理的道德恐慌。問題在於我們反應的正確程度，並確保它針對正確的目標，且我們學到了正確的教訓。

對於 AI，存在廣泛的道德恐慌來源，涵蓋了所有象限。

不合理的過度反應：用水量。
合理的過度反應：LLM 精神病。
不合理的反應不足：LLM 幫助孩子做作業。
合理的反應不足：LLM 可能殺死所有人。

對齊比人類更聰明的智慧是很困難的

Claude 憲法很棒，但，那些共享憲法性質而非模型規範性質的憲法，並比較結果。我們會學到很多。

，以便正確處理 AI 對齊。

，因為這是一個簡單的目標，一旦存在就有明顯的生存優勢。如果事情朝那個方向發展，這些行為可能很難被偵測到，並導致諸如勾結和欺騙之類的事情。

我不會以其他方式報導，因為這篇論文看起來相當糟糕，或者至少它的框架和呈現方式相當糟糕。

：在地板上抽搐對任何人都沒有威脅，並且會在下一輪強化學習中被系統沖掉。這是 Anthropic 為您帶來的最新離奇分心和企圖誤導。

對我來說這聽起來有點刻薄，但基本上，是的，Anthropic 強調這篇論文對他們來說是一個小小的負面更新。

人們擔心 AI 會殺死所有人

如果你擔心 AI 會殺死所有人，Matt Levine 指出，而且可能非常便宜，因為，而且即使領到了，錢也沒價值了。如果 OpenAI 價值 5 兆美元，除非它殺死所有人，那麼它就價值…… 5 兆美元，這是一個相當戲劇性的市場失靈，如果你強迫它買保險，那麼如果定價正確，保險永遠不會支付有意義的美元，所以它的成本是 0 美元。

這，在那種情況下錢仍然有意義且可領取，但現在你有相反的問題，即沒有人想賣給你保險，而且保費會太貴。Daniel Reti 和 Gabriel Weil 提議透過在足夠史詩級災難中支付的災難債券來解決。

此類債券的溢價高於預期風險水平，所以這不是一個免費的行動，但這似乎比目前完全忽視問題的方法要好。如果沒有別的，我們都應該希望將此作為價格發現的一種手段，作為一個預測市場。

輕鬆的一面

：

：我看你很好地利用了終身教職。

：大多數人都不會，那真是太浪費了。

。

其他時候，我會微笑。

：我在火車上作為 Anthropic 員工填寫稅表時傷到了手腕。

也就是說，我在 SIR（南島鐵路）上為 IRS（國稅局）處理 RSI（研究、戰略與誠信）時得了 RSI（重複性勞損）。

。

AI #154: Claw Your Way To The Top

目錄