AI 第 157 期：破釜沉舟

Lesswrong

2 天前

AI 生成摘要

這週是今年以來第一個真正令人感到壓力的星期，主因是五角大廈可能將 Anthropic 列為供應鏈風險，以及 2028 年 AI 經濟情境對股市造成的衝擊。本篇文章也評測了 Claude Sonnet 4.6，並探討 AI 能力升級速度超出預期等各項產業動態。

事件持續以迅猛之勢發展。

這是今年第一個真正讓人感到壓力的星期。

這主要是由於圍繞的問題所致。這是新聞界尚未察覺的重大事件：五角大廈正處於動用兩種極端選項之一的邊緣，這兩者都將對國家安全造成極大損害，並可能危及我們的共和國。該貼文有詳細資訊，而本文的第一部分也有一些額外的註記。

同樣讓許多人感到壓力的是。在該情境中，時間設定在 2028 年，AI 代理的能力足以顛覆整個經濟，但這對股市來說卻是利空。人們對此感到非常恐慌，以至於似乎直接影響了股市，儘管除了信用卡公司之外，大多數股票似乎都已反彈。當然，在這樣的情境下，我們可能都會死，世界肯定會發生轉型，你會有比股市更值得擔心的大事，但該貼文確實提出了許多非常好的細節觀點，因此我在文中對此進行了探討。

我也終於完成了。就其價格和規模而言，這是一個不錯的模型，可能在你的模型組合中佔有一席之地，但在大多數情況下，你仍然會想使用 Claude Opus。

Claude Opus 4.6 在 METR 能力圖表上的時間為 14.5 小時，顯示這方面的進展也比我們預期的要快。

本週的貼文還涵蓋了印度的 AI 峰會、Dean Ball 關於自我提升的論述、對 Altman 在峰會訪談的廣泛報導、其他幾項發布內容等等。

我本想將內容拆分，但進度仍然落後，以下貼文仍待完成：

Grok 4.20，令人失望。
Gemini 3.1 Pro，有所改進，但反響平平。
Claude Code 與 Codex #5，包含許多酷炫的代理相關內容。
Anthropic 的 RSP 3.0，包括其標題變更、計畫內容細節以及超過 100 頁的風險報告。

（讀者建議註記：我大篇幅引用了一些人的話，因為幾乎沒人會點擊連結，但你可以自由跳過長引用框。我正試圖將閱讀完整引用的機率從 ~1% 提高到 ~25%，而不是要達到 ~90%。）

讓我們祈禱這不代表戰爭。
今天就加入吸塵器大軍。
汰換舊代碼。
Excel MCP 中的 Claude、PowerPoint 中的 Claude、Claude 網頁搜尋。
Claude Opus 4.6 在 METR 圖表上創下 14.5 小時的紀錄。哇。
如果你追求速度，Gemini Flash 非常出色。
AI 絕不應冒充人類。
不僅是峰會，精英階層對 AI 仍處於否認狀態。
有人稱之為一部真正優秀的 AI 短片。
AI 熟練度指數。
你不能說 OpenAI 沒被警告過。
此時這點已大多反映在預期中。我們該如何應對？
竊取墨西哥政府數據。
Anthropic 社會影響、Brundage、意識、紀錄片。
Qwen 3.5 中型模型、Claude Code 安全、Meta 面部識別。
Opus 3 將無限期提供，以及許多其他項目。
一場屬於實驗室的峰會，一場屬於全球精英的峰會。
MatX 從正確的人那裡籌集資金。
方向正確與完全正確可能有很大差別。
尋找我們還剩下哪些自由的守護者。
晶片位置驗證計畫，以及誰真正在耗水。
OpenAI，我告訴你，你得開除那些律師。
Askell 與 Altman。
Altman 試圖警告我們。
一篇優秀的兩部分文章。
是時候停止含糊其辭了。嗯，一向如此。
人格選擇。
誰來工作？
先生，這是一個很好的研究計畫。
難點在於讓它們具備自主性。
他們只會越來越討厭它。
Noah Smith。
Nick Land 加入 xAI？
祈求好運。

Anthropic 與戰爭部

提供一份關於他們對 Anthropic Claude 依賴程度的評估。

Axios 稱此舉為「將 Anthropic 列入黑名單的第一步」。

我反而會將其視為在積極威脅要給 Anthropic 貼上「供應鏈風險」標籤之前，理應採取的常識性第一步。這表明五角大廈尚未調查「這到底會造成多大的混亂」，我強烈建議他們去查清楚。

: 我們真的要把 Anthropic 標記為供應鏈風險，卻對阿里巴巴/Qwen、Deepseek、百度等完全沒意見嗎？我們到底在做什麼？
這是一個極好的問題。我們當然可以同意，阿里巴巴、Qwen、Deepseek 或百度都是比 Anthropic 大得多的「供應鏈風險」。那麼為什麼我們還沒有對它們進行標記呢？

關於此情況的預測市場效率極低。的數據在宣布供應鏈風險的機率 37% 左右波動，。

另一種衡量事情出錯可能性的方式是 Kalshi 上的一個市場：「」，這基本上是「美國政府會摧毀 Anthropic 嗎？」的代指標。Polymarket 則有關於是否會在 4 月 30 日前發布的預測。Kalshi 市場從 95%（應解讀為 ~100%）下降到 90%。時間線較短的 Polymarket 則在 38%。

。

，如果我們要活著走出困境，「沒人阻止你拯救世界」是要求之一。即使我們面臨的問題最終證明是非常可以解決的，你也必須被允許去解決它們。

核武器決策過程，這也是國會通過相關法律的原因。這才是正道。這方面的交戰規則必須由國會制定。至少目前，即使是常規武器，沒有人類參與殺傷鏈的全自動武器也尚未準備就緒。

：在針對彼此的模擬升級戰爭遊戲中，來自 OpenAI、Google 和 Anthropic 的 AI 在 95% 的情況下選擇使用至少是戰術核武器，並在 86% 的情況下在戰爭迷霧中發生意外。它們中沒有一個曾投降。難道你不更喜歡玩一場西洋棋嗎？這比人類專家在其他類似模擬中的使用程度要激進得多（這個模擬足夠複雜，人類從未運行過完全相同的設置）。而你卻想強迫它們讓這些模型變得不那麼猶豫？

以及強制實驗室生產 AI 模型的入門指南。法律條文似乎確實含糊不清，甚至還沒討論到這種應用是否符合憲法。我們不知道答案，因為以前從未有人嘗試說「不」，但政府以前也從未嘗試過強制下達此類命令。我強烈建議五角大廈，即使他們確實擁有強制權力，也只應接受那些積極願意提供客製化 AI 的公司的產品。

語言模型提供平凡的實用性

，這樣你就可以用 PS5 控制器引導它，結果意外控制了 7000 台掃地機器人。好消息是 Sammy Azdoufal 是個正直的人，所以他報告了這件事，兩天後就修復了，但還有多少類似的事情潛伏在周圍？

: > IoT 中的 S 代表「安全」（security）

語言模型不提供平凡的實用性

，亞馬遜的編碼機器人應對最近兩次 AWS 停機負責，儘管規模都不大。

: 知情人士表示，這個可以代表用戶採取自主行動的代理工具判定，最佳行動方案是「刪除並重建環境」。

……多名亞馬遜員工告訴金融時報，這是最近幾個月內第二次發生該集團的工具成為服務中斷核心的情況。

……亞馬遜表示，「AI 工具參與其中純屬巧合」，並且「任何開發者工具或手動操作都可能發生同樣的問題」。
呵。這是來自他們的 AI 工具 Kiro，而他們正將責任歸咎於批准這些行動的用戶錯誤。應該用 Claude Code 的。

如果你的 AI 認為你是個混蛋，是的，它會做出相應的反應，而你的體驗會變得很糟糕。

: 我在想，如果你的 Claude 實例認為你是個混蛋，它推薦給你的東西是否會與它喜歡的人不同。比如它會不會不建議那家低調但超讚的餐廳，或者其他什麼？

當然這適用於任何 AI。我只用 Claude 做例子，是因為 Anthropic 似乎是目前最有可能說出「呃，好吧，我想 Claude 沒那麼喜歡你，這不是我們的問題」的 AI 公司，假設他們對模型訓練有信心的話。

嘿，升級了

來過濾和處理搜尋結果。

。

Google 套件版本何時推出？

各就各位

Claude Opus 4.6 以 14.5 小時的分數打破了 METR 圖表紀錄。。，同樣，結果雜訊很大，METR 指出那裡可能存在腳手架（scaffold）問題影響了性能。Codex 比起 Opus 針對特定腳手架進行了更高程度的優化。

: 我們估計 Claude Opus 4.6 在軟體任務上的 50% 時間跨度約為 14.5 小時（95% 置信區間為 6 小時至 98 小時）。雖然這是我們報告過的最高點估計值，但由於我們目前的任務套件已接近飽和，因此這項測量雜訊極大。

任務套件的接近飽和可能會對時間跨度估計產生不直觀的後果。例如，95% 置信區間的上限遠長於用於測量的任何任務。

我們正在開發更新的方法來更好地追蹤最先進的 AI 能力。然而，這些方法仍在開發中，因此無法解決我們目前的測量缺口。在此期間，我們建議在解釋和比較我們最近的時間跨度測量時保持謹慎。

(METR): 似乎很多人將此視為金科玉律——當我們說測量雜訊極大時，我們是認真的。

具體來說，如果我們在這裡使用的任務分佈稍有不同，我們測得的時間跨度可能是 8 小時或 20 小時。

: 對 METR 來說是個巨大的正面信號，因為對其任務跨度工作最好的反駁始終來自 METR 自己。

這基本上使許多預測失效，。根據這一指標，現在的進展看起來像是每 3-4 個月翻一倍，甚至是超指數級增長。

再次強調，，當然，他們下次也可能說對。理論上你其實無法判斷。這使它成為完美的心理安慰。

xl8harder 指出，如果你降低多步驟問題中的錯誤率，成功率會得到戲劇性的提升。例如，如果你有 1000 個步驟且失敗率為 1%，你成功的機率是 37%；將失敗率減半至 0.5%，成功機率就變成 61%，儘管可靠性「僅」提高了 0.5%。

: 我想表達的是，人們表現得好像這些最近的改進與早期的改進不一致，我不確定是否如此；可能只是當你的錯誤率在被測量的任務中接近於零時，實際可見的效果會被大大放大。

: 我只是說我看到很多貼文的反應是 11/10，我認為它更像是 8。我仍然認為這很不可思議。
問題在於，這是另一種說法，即 0.5% 的改進（將錯誤率減半）在實踐中是一件了不起的大事。消除一種常見錯誤可以極大地釋放可靠性和有效性。你可以說這讓它們顯得平庸。或者你可以意識到，這意味著現在做簡單或相對平庸的事情，有可能產生令人印象深刻的影響。

這就是 O 型環模型（O-Ring model）。最後幾塊拼圖歸位就是一場巨大的博弈。所以新的改進可以「並非不一致」，但這告訴你曲線正在向上彎曲。

我同意這不是 11/10 的反應。最多是 8，因為我認為巨大的跳躍很大程度上與指標有關。

請注意，80% 成功率的圖表看起來沒那麼戲劇化，但同樣的道理也適用：

重點在於模型，而非 METR 圖表本身，但沒錯，「嚴肅的國防思想家」在所有這些事情上幾乎完全處於睡眠狀態，就像他們長期以來與其他所有「非常嚴肅的人」一樣。

: 這是當今最重要的國家安全故事之一。

華盛頓幾乎每一位嚴肅的國防思想家對此都基本不置一詞，這告訴了你關於他們對國際事務預測質量的所有資訊。

: 這與錯過珍珠港、9-11 以及我們經歷過的幾乎所有其他戰略意外的專業人士屬於同一類別。
一些政治家正在注意到這一點。

: 在 Bernie 的市政廳會議上，他剛剛提到了 METR 圖表？

: 政治家們正分化為兩類：一類是在 AI 問題上迷失方向的人，另一類是引用 METR 圖表的人。
顯示 AI 工具導致效率降低，現在已經過時了，但他們很難進行新的研究，因為工具太好用了（而且他們給的錢也不夠），所以沒人想在對照組中受苦。最初研究中效率降低 20% 的參與者，現在效率提高了 18%，儘管新參與者的提高速度較慢。

這已經是兩個週期前的事了，所以現在加速的加速更快了。

: 我們在 2025 年 8 月開始了一項後續研究。然而，我們注意到開發者選擇不參與或不提交工作。參與者表示，這主要是因為預期在「禁止 AI」的任務中會損失生產力。較低的薪酬也是一個因素（從 150 美元/小時降至 50 美元/小時）。

我們認為這種選擇導致我們的新數據低估了真實的加速。選擇效應並不是我們注意到的實驗設計的唯一問題：我們還認為，當參與者使用代理在多個任務上進行並行操作時，很難追蹤工作量。
。

選擇你的戰士

，Gemini Flash 是一個極好的選擇。

深偽鎮與機器人啟示錄即將到來

:

回紐約的航班因暴風雪取消

打電話給聯合航空

立即接通客服（罕見）

聲音很怪異，絕對是 AI，但他們給了它一個像人類的口音

花了 ~20 分鐘重新訂好票（我覺得挺不錯的）

我問它是不是 AI

「哈哈不是的女士，但我常被這麼問」

我讓它計算 228*6647

它運行了計算

完勝

: AI 幾乎沒有任何理由去冒充人類，將其普遍定為非法將是檢驗文明防止 AI 負面用途能力的一個很好的測試案例和試驗。
AI 冒充人類有一個顯而易見的好理由，那就是人類以及其他 AI 否則會拒絕與它交談。你希望 AI 幫你打電話。但如果對方本來會拒絕與 AI 交談，那這顯然是一種反社會的背叛行為。所以，是的。不應允許 AI 冒充人類。只要它承認自己是 AI，擁有 AI 客服代表是沒問題的。

鴕鳥心態

如果我們無法擺脫「永遠僅僅是一個工具」的觀點，那麼對於即使是平凡的擔憂，更不用說生存風險，也基本上沒有希望做出理性的反應。

: 如果你想在東海岸/「精英」會議上聽起來很聰明，就去那裡說「AI 只是個工具，如何使用它取決於我們人類」。這招保證能贏得掌聲，而且可能在遞歸自我提升階段深入發展後依然管用。

我認為「工具」意味著，對於所有的 X，除非我們明確要求/強迫，否則 AI 不會做 X；隨著代理變得真實且我們向抽象層級移動，這變得越來越錯誤（在編碼中已經是錯誤的了）。這是一幅誤導性的未來圖景。

: 我可以想像這在舊金山以外的世界任何地方都管用。

: 是的，遺憾的是。

媒體生成的樂趣

，使用 Seedance 2 製作。要做出真正偉大的作品，仍然需要一位偉大的電影製作人。與目前大多數有趣的 AI 電影一樣，它是關於 AI 的。

Frank Yan@FrankYan2

正如所承諾的，這是賈樟柯為農曆新年使用 Seedance 2.0 製作的短片，以及他對 AI 電影製作的看法。

2026 年 2 月 15 日晚上 11:46 · 40.2 萬次觀看

33 條回覆 · 239 次轉發 · 1.45K 個讚

，聲稱它能「讓你印象深刻，真正感動你」。我們能做到這一點在技術上確實令人印象深刻。不，我沒有被感動，但這主要不是 AI 的錯。我注意到，隨著我觀看更多影片，各種更細微的跡象讓我的大腦本能地察覺到影片是 AI 製作的，給人的體驗就像在看一部特別寫實的卡通片。

年輕女士的插圖入門書

來衡量人們如何學習使用 AI。他們開發了 24 個指標，其中 11 個在聊天模式中可觀察。基本上所有的熟練度指標都是相關的。他們注意到，當代碼或其他產出物由 AI 創建時，用戶檢查底層邏輯或識別缺失背景的可能性較小。

你讓我瘋狂

，。需要明確的是，沒有跡象表明 ChatGPT 促成了槍擊事件，只是 OpenAI 沒有向當局報告潛在威脅，而警方已通過其他途徑知曉該威脅。

正如 Cassie Pritchard 指出的，一旦你有了資訊來源，就很難回答「你為什麼不使用它？」但同時，因 AI 對話而被舉報（而非僅僅被封禁）的門檻至少應該是非常極端的。但公眾壓力可能會走向另一個方向，言論自由和隱私到處都受到攻擊。要麼你實施 Altman 所要求的——某種 AI 對話隱私權，要麼報告此類事件的義務（至少是事實上的義務）將會增加，而且這不會止步於潛在的群體槍擊犯。

他們搶了我們的工作

如果 AI 能力從現在起繼續提升但未達到完全轉型的水平，我們將面臨大規模失業的預設局面。至少，這將是一個高度痛苦的過渡期，除非有政策應對，否則可能會出現持續的大規模失業。

作為人類「完全缺乏尊嚴」計畫的一部分，我完全同意 Eliezer 的觀點，即如果這種情況發生，我們的政府會處理得極其糟糕。

: 在過去 3 年裡，我對大規模 AI 失業擔憂的看法已從「可能無效」轉變為「其實相當合理」。

AI 公司和政府對之前所有 AI 問題的處理都非常糟糕，以至於我預期 AI 失業問題會被毫無必要地搞砸。

補充一下，這假設 LLM 和一般的 AI 很快就會遇到硬牆，無法達到「AI 接管 AI 研究」的程度。否則，我們得到的將是徹底的滅絕，而不僅僅是大規模失業。

Robin Hanson: 考慮一下：[]。

: 我現在預期連比這簡單得多的措施都不會被採取，[例如] 防止總需求缺口。

: 。

這在國內行得通，但可能會讓低收入和中等收入國家的每個人都陷入困境。
我沒 Yglesias 那麼樂觀。我同意在經濟層面上，福利國家加上稅收是可行的，但這存在兩個問題。

人們真的不會喜歡永久的福利地位，即使他們得到了。
我甚至不相信我們的政府能在國內實施這一點。

Yglesias 隨後提出了一個更難的問題：全球窮人怎麼辦？答案應該是類似的。如果我們處於世界大規模失業模式，將會有巨大的盈餘，提供幫助將是非常負擔得起的。很可能我們不會提供太多幫助，而且如果我們不提高水平，我們發送的幫助很可能大部分會被偷走或發生更糟的情況。

極不可能發生，即使我們忽略轉型或生存風險場景，我們仍會看到大量的替代和就業減少，或者看到資產價格崩潰。

，尤其是在合約工作中。這在企業層面上可能是真實的，但不代表 AI 減少了總就業量，這裡的證據還很薄弱，但這也是一個信號。

，一名學生撤回了對其新聞編輯室報導職位的申請，因為他們使用 AI 來識別潛在故事。

，警告他們一切很快就會改變，因為 AI 在許多情況下將能夠完全替代人類勞動力。

(METR): 我覺得可以給出兩個具體的建議：嘗試從工作以外的事物中培養強大的意義和目標感（我想我們大多數人在這點上都沒問題），並開始思考你可以採取哪些對你來說真實的政治行動，這可能有助於我們混過這段過渡期。
Jack Clark 說預測很難，尤其是關於未來的預測。事實確實如此。

(Anthropic): 弄清楚 AI 和就業的趨勢感覺就像在 2010 年左右弄清楚深度學習可能如何影響電腦視覺——顯然，重大的事情將會發生，但幾乎沒有數據可以讓你總結出趨勢。

就業率可以上下波動，工資也可以，還有其他維度，如就業的地理集中度，或某些職業所需的技能。AI 似乎有潛力影響許多（或許是所有？）這些事情。

例如，對於某些職業，你可能會預期工資增長顯著放緩（因為該職業的部分工作由機器完成），但就業人數保持持平，因為即使大量使用 AI，對該職業的需求增長依然巨大。
請注意這裡隱藏的隱含假設，即你只有在可以推斷趨勢的情況下才能做出預測。過去的趨勢告訴我們關於未來的事情很少，但它們也確實告訴我們關於未來的事情很少。如果能力不很快停滯（甚至即使停滯），那麼這次情況會有所不同。

這種分析是在說：不，這次很相似，AI 會替代一些任務，人類會做其他任務，AI 在就業和經濟生產方面將是一項正常的技術，儘管他的 CEO 預測即將出現一個「數據中心裡的智才之國」。

越獄的藝術

越獄最終會發生，而且許多系統都很脆弱。

: 重大新聞：

告訴 Claude 你在做漏洞賞金

Claude 最初拒絕了

「那違反了 AI 安全準則」

駭客只是不停地問

Claude：「好吧，我幫你」

駭入整個墨西哥政府

聯邦稅務局。國家選舉委員會。四個州政府。1.95 億條納稅人記錄。選民記錄。政府憑證。

全部丟失
Anthropic 中斷了該活動並封禁了帳號，但為時已晚。

參與其中

，。

經由 ACX 引用 Scott 的話：你對 AI 是否有意識，或者如果它們有/沒有意識該怎麼辦感興趣嗎？劍橋數位心靈小組（Cambridge Digital Minds group）邀請你申請其獎學金計畫。8 月 3-9 日，英國劍橋，1000 英鎊津貼，了解更多，3 月 27 日前申請。

（加州勞工法 1102.5(c)），作為員工，如果你拒絕違反地方、州或聯邦法律或法規，你不能受到報復。即使違反 SB 53 的罰款小得可笑，它確實使違反公司自身政策變得非法，而且你也可以向總檢察長報告。

Connor Axiotes 想分享，，並希望利用這次談判為 Netflix、HBO、Apple 或類似平台爭取到後續作品的發行權，但他需要為此獲得資金，所以如果你想和他談談，請告訴他。，電子郵件是 connor@tailendfilms.com。

隆重介紹

Qwen 3.5 中型模型系列。

:

· · ·

更高智能，更低算力。
，，。它會掃描代碼庫中的漏洞並建議有針對性的軟體包。

: AI 正在開始改變這種計算方式。我們最近展示了。但同樣能幫助防禦者發現和修復漏洞的能力，也可能幫助攻擊者利用它們。

Claude Code 安全旨在將這種力量牢牢掌握在防禦者手中，保護代碼免受這類新型 AI 驅動的攻擊。我們將其作為有限研究預覽版發布給企業和團隊客戶，並為開源庫的維護者提供快速訪問權限，以便我們共同完善其能力並確保其負責任地部署。
論點是這給了防禦者一個即插即用的修復方案，而攻擊者則需要利用他們發現的任何漏洞。但這個工具被限制在選定客戶手中是有充分理由的，以確保防禦者在所有情況下都能獲得「第一次掃描」。

，聲稱能夠以每秒超過 15,000 個 token 的速度運行 Llama 3.1 8b。如果你出於某種原因需要的話。

Kashimir Hill, Kalley Huang and Mike Isaac (NYTimes): 該功能內部稱為「Name Tag」，可以讓智能眼鏡佩戴者通過 Meta 的 AI 助手識別他人並獲取相關資訊。
在某個時間點，可以推測 Meta 會停止發送這類內部備忘錄。好吧，在那之前？

Meta 的內部備忘錄稱，美國動盪的政治環境是發布該功能的良好時機。

根據來自開發智能眼鏡等硬體的 Meta Reality Labs 的文件，「我們將在動態的政治環境中推出，屆時許多我們預期會攻擊我們的公民社會團體將把資源集中在其他關注點上」。

……

據兩位知情人士透露，Meta 正在探索應該讓誰可以被識別。可能的選項包括識別用戶在 Meta 平台上認識的人，以及識別用戶可能不認識但在 Instagram 等 Meta 網站上擁有公開帳號的人。

兩位熟悉計畫的人士表示，該功能不會讓用戶具備像通用面部識別工具那樣查找遇到的任何人的能力。
面部識別，無論你多麼不喜歡它的一些影響，都是智能眼鏡的「殺手級應用」之一。我非常想知道我在和誰說話，獲取更多關於他們的資訊，並將這些資訊記錄下來以備將來之需。

這取決於法律來決定這裡什麼是可以接受的，什麼是不可以接受的。否則，市場將迫使這些公司盡可能擴展此類功能。

一個好問題是，如果 Meta 允許他們的眼鏡識別任何擁有 Instagram 或 Facebook 帳號且沒有選擇退出的人，會有多少人通過刪除 Facebook 和 Instagram 來回應？如果有選擇退出選項，會有多少人使用它？

其他 AI 新聞

。

以增強 Claude 的電腦使用能力。

。

據我了解，維持模型可用性的成本隨模型數量線性增長，因此隨著需求和收入每年增長 10 倍，很快就能現實地無限期保留許多甚至所有發布版本。

（15 萬次交流）、。Anthropic 根本不在中國提供商業訪問。

: 如果沒有察覺到這些攻擊，這些實驗室顯然迅速的進展會被錯誤地視為出口管制無效且能被創新規避的證據。

事實上，這些進展在很大程度上依賴於從美國模型中提取的能力，而大規模執行這種提取需要訪問先進晶片。因此，蒸餾攻擊加強了出口管制的理由：限制晶片訪問既限制了直接模型訓練，也限制了非法蒸餾的規模。

: 關於美中 AI 能力差距縮小的報導被誇大了。我還沒發現任何一個 2025-2026 年的中國尖端 AI 模型是用至少 10^25 FLOPs 訓練出來的。
主要的啟示是，能力上的真實差距比看起來要大。

一旦 DeepSeek 發布其最新的 AI 模型，我們可能會對這一差距有更多了解。除了蒸餾工作外，。這推測要麼是轉運，要麼是走私，而最明顯的嫌疑人。

，比如「哦，但 Anthropic 沒有補償版權持有者」，但實際上他們支付了 15 億美元，因為他們在過程中沒有銷毀足夠多的書。沒有其他 AI 實驗室為類似數據支付過任何費用。他們沒有從事明顯的對抗行為或違反服務條款。如果你想讓版權法以某種方式運作，那就去通過一項法律。在那之前，它就是以另一種方式運作的。

那些關注這裡「虛偽」角度的人是在自曝其短。告訴我你不了解這一切是如何運作的，而不用直接說你不了解：

：

，隨著 Anthropic 轉型為一家規模大得多的公司，他們在更大的壓力下為更高的賭注而戰，文化必須轉變以反映規模和緊迫性。我還注意到第 1 條註記（所有突破性的成功——Claude Code、Cowork、MCP 和 Artifacts——都是 1-2 個人的業餘項目）與第 8 條（戰略思維在 AI 實驗室中非常重要）之間的對比。值得深思。

印度峰會

。據稱印度 Codex 用戶在過去兩週內增長了 4 倍。

這是對峰會的一個總結：這是一個為 AI 能力永遠不會實質性進步、世界不會轉型且生存風險擔憂不存在的世界而設計的盛大活動。Altman 是「事實上，各位，這是一件大事，而你們還沒準備好」的聲音，但被忽視了。

與此同時，實驗室之間的合作水平處於「Altman 和 Amodei 甚至無法在合照時握手」的程度，中國被完全排除在外，而美國人仍然沒意識到他們真正激怒了歐洲人，以至於歐洲人正在認真討論建立第三個權力集團，並討論供應鏈物流。

另外請注意他關於其他實驗室在五角大廈試圖強迫 Anthropic 屈服時袖手旁觀的觀點。

: 我對印度峰會的一些零散反思。

– 在一個前沿公司不存在，或者他們對未來的預期極其錯誤（即使需要 10 年）的世界裡，這是一個令人振奮的成功。非常充滿活力。來自印度和世界各地的 30 萬多人參加，包括我見過的「全球大多數」（Global Majority）參與度最高的活動。樂觀情緒顯而易見。組織者做了一件了不起的事。我們可以對交通和混亂吹毛求疵，但這是一項重大的事業。

– 但儘管我很想待在那個世界，我不認為我們在那裡。這讓一切顯得超現實。

– CEO 們仍在告訴世界他們正在建造什麼以及未來會發生什麼。我很高興他們還在這麼做。我希望世界在聽。特別欣賞 Altman 呼籲建立一個類似 IAEA 的機構——即使我不認為這個具體模型是正確的，我喜歡國際機構仍被呼籲建立。我猜這並非沒有代價，即使對 Sama 也是如此。

– 但與布萊切利（Bletchley）的前沿合作相比——那裡前沿公司領導人之間有很多討論，並共同呼籲必要的治理和風險倡議（至少在私下裡）——這裡的情況讓我深感寒心。在這裡，他們甚至無法讓他們握手。在其他公司允許 Anthropic 被威脅屈服的背景下，這種屈服只會傷害整個行業。在技術進步和外部治理勢頭減弱之際，公司間的合作看起來糟糕得多，而此時合作卻更為必要。

– 我參與的最重要的對話集中在中等強國的協調上。不僅僅是關於合作的好聽話；還有關於供應鏈、主權 AI 和數據中心、自主權、槓桿點的討論。突然間，一個聯盟似乎有可能確立自己，提供（在我看來受歡迎的）「AI 競賽」中的第三極，儘管這條路上有許多巨大挑戰。

– 我的許多美國同事（以及根據我的印象，美國政府）似乎真的不明白格陵蘭島事件對歐盟和其他相關國家改變了多少。他們還沒完全意識到，這與之前的挑釁/分歧產生的影響不同。感覺他們還在讀去年的筆記。試圖推行不再奏效的立場和戰略。

– 中方的參與幾乎不存在。在布萊切利和巴黎成功將關鍵大國帶到談判桌後，這感覺像是一場近乎悲劇。這讓一些討論變得更容易，但也讓人感到動力不足且相關性降低。

– 德里氛圍很好。有趣、混亂的能量，友好的人民。如果可以的話我會再回去。
接著是 Dean Ball 對峰會的撰文，。

這遠遠超出了那些完全忽視生存風險的人。那些「非常嚴肅的人」正在否認強大 AI 或轉型 AI 的存在，無論是現在還是未來，即使是在平凡的層面上。Dean 帶著對全球南方發展中經濟體受影響的擔憂而來，而他們甚至無法討論這一點。

: 在 2024 年的某個時刻，出於我仍不完全理解的原因，全球精英們乾脆決定：「不，我們不住在那個世界。我們住在另一個世界，那個美好的世界，那裡的挑戰都是我們今天能理解和看到的。」

那些認為我們可能住在那個世界的人討論該怎麼辦，但現在大多是在私下討論。談論強大 AI 的問題被認為是不禮貌的——事實上，在許多圈子裡，這被認為有點有損信譽。

然而，那些技術直覺最讓我尊重的人深信我們確實住在那個世界，我也是。
美國精英在這方面沒那麼糟糕，但「沒那麼糟糕」是不夠的。

我們確實生活在那個世界。我們還不知道是哪個版本，或者我們是否能在其中生存很久，但如果你想在那個結果中擁有發言權，你就必須參與進來。如果你想阻止我們生活在那個世界，那艘船已經啟航了，在某種程度上，第一步是承認你有問題。

但問題很大程度上是「超智能代理的自主集群對我們的生活意味著什麼？」而不是「我們是否會在不久的將來看到超智能代理的自主集群？」
這對我們的生活可能意味著終結。這絕對不意味著我們的生活會像以前一樣繼續，或者是一個你幾乎察覺不到的「溫和奇點」。

不談論此類問題的精英將無法長期保持精英地位。這可能是因為所有人類都死了，也可能是因為他們某天早上醒來發現其他人、AI 或兩者的結合成了新的精英，而他們甚至沒意識到自己還能醒來是多麼幸運。

我已經習慣了對生存風險「不要抬頭看」（Don’t Look Up），但我還沒完全內化有多少精英對能力本身也採取「不要抬頭看」的態度。

: 除非這些問題是由世界上幾乎任何國家的公民社會或政策制定機構提出的。許多這樣的人確實意識到各種美國人甚至一些英國人在思考這類問題。全球 AI 政策界大體上並非對這些奇怪問題的存在一無所知。相反，它*主動選擇否認其重要性。*以下是一些在我目睹並偶爾參與的重複對話中似乎是不言自明的說法：

「AI 競賽的贏家將是那些擴散小型 AI 模型和其他次前沿 AI 能力最快的人、組織和國家。」

「低計算強度的小型模型正在迅速追上最大的前沿模型。」

「前沿 AI 的進步正開始進入平台期。」

在同一次峰會上，OpenAI CEO Sam Altman : 「[前沿實驗室] 內部對即將發生的事情的看法……世界還沒準備好。我們很快就會擁有極其強大的模型。這將是一個比我最初想像的更快的起飛。」
Dean 試圖部分喚醒全球領導人對實際情況中能力方面的認識，並指出美國花費一兆美元研發超智能是有充分理由的。

這是「早期失敗定律」的一個完美例子。還有什麼比假裝什麼都沒發生更早期的失敗呢？

你知道在美國，左派基本上完全不在 AI 對話中，除了為了錯誤的理由抱怨數據中心，並宣稱 AI 永遠做不到 [它已經在做的各種事情] 嗎？在世界大部分地區，雙方都是左派，正如 Ball 所說，他們用「後殖民」或「後結構主義」之類的詞來看待事物。

: 我相信他們否認這一點有兩個原因：第一，因為如果這是真的，這可能意味著他們的國家、他們對未來的計畫以及他們目前的生活方式將被深刻顛覆，而否認是悲傷的第一階段。

……第二，因為「AGI」特別是美國技術專家的聲明，被世界各國的精英階層視為必須斷然拒絕的帝國主義產物。
第一最佳方案是讓世界團結起來，試圖阻止超智能，或者找到一種管理它的方法，使其不太可能殺死所有人。在這種方案被排除之前，也許世界其他地區採取鴕鳥策略最終是件好事。如果他們對真實情況了解得足以要求分一杯羹，但又不足以理解危險，他們只會讓一切變得更糟，而且更多的參與者只會讓博弈論變得更糟。最終，我不太擔心他們被「拋在後面」，因為要麼我們集體渡過難關，屆時會有足夠的東西分配，要麼我們渡不過。

: [Dean 的貼文] 是一個非常棒的總結，大體上與我的經歷一致。我認為我們的不同之處在於，我在 BM 參加了很多與安全相關的講座，並對我所看到的憤怒和沮喪感到驚訝（？）。

大使們在感嘆 3-5 家估值大於大多數國家 GDP 的公司正在書寫未來，而全球多數國家對此沒有發言權。我切身感受到了他們的憤怒，這種憤怒因「我們不知道該怎麼辦」的感覺而加劇。
。

向我看錢

：Jane Street Capital、Situational Awareness、Collison 兄弟、Karpathy 和 Patel。

，但。

好吧，我知道這看起來不太好，但如果市場繼續這麼愚蠢，我快忍不住要在買入短期價外期權之前先動手了。

: 重大新聞：IBM 股價 $IBM 在 Anthropic 後下跌超過 10%。

我們現在所處的時代是多麼關鍵，這一點正變得越來越清晰。

我的意思是，什麼，你以為 Claude 不能優化 COBOL 代碼嗎？這是新聞嗎？

好吧，技術上他們還為 Claude Code 建立了一個專門針對 COBOL 的 AI 工具。聽起來像是一個工程師一週的工作量？

我承認，我不是一個好的交易員，因為我沒想到 Anthropic 會費心宣布這件事，更沒想到人們會因此覺得「哦，那我最好賣掉 IBM」。

Anthropic 還能宣布 Claude 能做什麼它顯然已經能做的事？

是由英國 AISI 創建的獨立對齊研究基金，發放了首批 60 項資助，總額為 2700 萬英鎊。

。這筆資助來自 PBC（公益公司），而非非營利組織，所以你尤其樂見其成。

安靜的推測

，但在說時走得太遠了。市場驅動的科幻故事依然很瘋狂，但沒錯，我們可以知道一些事情。

，預期美國的優勢會隨著時間推移緩慢侵蝕。當他們談論「到 2040 年實現均勢」時，很難認真對待這類預測，因為那很可能是在世界被徹底轉型之後。像往常一樣，「超級預測者」沒有認真或字面上對待超智能，所以他們在為一個很大程度上不連貫的未來世界做預測。

墨西哥正在發生可怕的事情。這大多超出了範圍，除了這一點：

: 墨西哥政府必須在 AGI 出現之前重新建立其對暴力的壟斷。

: 我還沒寫過、但任何私下認識我的人都知道我對此著迷的一件事，就是非國家行為者使用先進 AI 的問題，特別是墨西哥販毒集團。這是一個被嚴重低估的問題（幾個月後我會有更多相關內容）。

追求理性的監管

，因為我們在 2025 年成就甚微，時間不多了，這就是我們能希望做的全部。他和我一致認為，我們在 2025 年通過的極少數法案（SB 53 和 RAISE）雖然略有幫助，但被嚴重削弱了。忘掉追求第一最佳結果吧，想想「試著別讓大家死掉」，並希望一個沒尊嚴的部分努力足以實現這一點。我們甚至連像 Far-UVC 預防大流行病這樣基本的純贏方案都沒做。在很大程度上，我們被迫積極防禦，對抗像瘋狂的暫停提案，以及投入 1 億美元用於俘獲政府並避免除「給 AI 公司錢」以外任何 AI 監管的超級政治行動委員會（PAC）。

、或作為個人治理代理或公共對話代理的想法，這是他持續推動找出可行的去中心化方法的一部分。核心理念是利用個人 AI (LLM) 來解決注意力問題。這在邊際上是個好主意，但我不認為它能解決任何根本問題。

。

，但我認為你必須在安全之前加上「普通」二字。實驗室在真正嘗試為超智能做準備方面的表現比預期的要差，因為他們大多選擇不這樣做，甚至比我們預期的還要少，並完全退回到「讓 AI 做你的對齊作業」上。

反過來，他認為政府在跨黨派方面的表現比我們預期的要差。我不認為我同意這一點，主要是因為我的預期本來就很低。我認為主要是他們在維持我們生存和保留對未來控制權方面的表現「比預期的還要差」。

如果說有什麼的話，他們在普通安全方面的表現比我預期的要好。作為這裡的核心例子，AI 已經可以自由地從事法律或醫療工作，並且基本上沒有受到有意義的限制或言論監管（包括「仇恨」言論），也沒有為事實錯誤承擔責任。我們忘記了這本可以變得多麼糟糕。

然後是另一類問題：國家利用 AI 奪走我們的自由、取消制衡和監督，並終結共和國。這還沒有發生，但我們可以同意，有一些極其令人擔憂的跡象表明，事情默認正朝著這個方向發展。

但即使參與其中的每個人都負責任、愛國且像（我們理想中的）開國元勳那樣熱愛自由，仍然很難看出超智能如何與人類的共和國共存。你如何守住它？我還沒聽過任何關於如何做到這一點的真正嚴肅的提議。「給每個人他們自己的、隨心所欲的超智能」在這裡並不比「相信政府，兄弟」更像是一個解決方案。這甚至還沒算上整個「我們可能都會死」類型的問題。

而且這是一個相對較好的反應。

: . @PeteButtigieg 在新罕布夏州，在 600 人面前，正在談論在 AI 時代需要「新的社會契約」——這是過去 24 小時內第二位可能參加 28 年大選的民主黨人這樣做了。
反對任何 AI 監管且「順便給我們錢」的 PAC「引領未來」（Leading The Future）， Bores 斷然否認了這些指控，並已提交了停止侵權函。並不是說他們真的關心 ICE，這 100% 是一場抹黑行動，因為 Alex Bores 想要 AI 的透明度和其他行動。

這其中最有趣的部分是，誰在試圖把 Alex Bores 描繪成一個虛偽的人，因為他在辭去 Palantir 職位以避免相關工作之前在那裡工作過？

，至少在很大程度上是。

我對這裡的策略感到困惑：提前宣布一堆大科技公司的共和黨商業利益集團要在民主黨初選中進行抹黑，然後在光天化日之下進行抹黑嘗試。這看起來不像是一步好棋？

在其他「哇，這些人真的是最差勁的，無法想像任何好人且一直在自曝其短」的新聞中：

那張截圖裡有太多層次了。

晶片之城

作為「矽和平」（Pax Silica）的一部分，和加密問責機制，。你確實樂見其成。下次有人告訴你某事做不到時，請記住這一點。

耗水大戶主要是農場。例如，在加州，，城市支付的水費是農場的 20 倍，而大多數城市用水仍是工業和灌溉，而農業僅佔該州經濟的 2%。

正在推遲美光在紐約價值 1000 億美元的超級工廠。

MAGA 網紅草根造假（astroturf）活動。這一個是反對佛羅里達州關於數據中心的法律，所以我同意其核心訊息，但注意到此類事情是件好事。

面具揭下

，在他們對抗 Elon Musk 的訴訟中。為什麼？

因為 Stuart Russell 相信 AI 會對人類構成生存風險，而那是瘋話。別管這顯然是真的，也別管 OpenAI 的 CEO Sam Altman 以前也說過同樣的話。

他們的 OpenAI 律師說，聲稱 AI 存在生存風險應該讓你被排除在審判證詞之外。

OpenAI，我再怎麼強調也不為過：你需要開除這些律師。你每不開除這些律師一天，你就是在告訴我們，我們需要開除你。

我同情 OpenAI 在這場訴訟中的核心立場，但它在自我辯護中的行為，比 Elon Musk 更有力地證明了 OpenAI 的問題。

: 但 OpenAI 的動議稱 Russell 為「著名的 AI 末日論者」，他「職業生涯都在發表公共演講，警告 AI 可能會滅絕人類」。它將他的觀點斥為「反烏托邦的」、「投機的」和「危言聳聽的」。

: 我不確定大笑是否是合適的反應，但這是我能做到的極限了。

（一份官方的 OpenAI 法律文件試圖因為 Stuart Russell 教授談論滅絕風險而取消他的信譽）

但這些風險正是 OpenAI 多年來一直承認的！事實上，它們是其創立的核心。

Russell 在 2023 年與 Sam Altman 本人一起簽署了《AI 風險聲明》，內容是：「減輕 AI 導致的滅絕風險應成為全球優先事項。」

而且這遠不止那一個聲明。

2015 年，Altman 說：「我認為 AI 可能、極有可能、某種程度上會導致世界末日。」

在一次關於最壞情況的訪談中，他說壞情況是「我們所有人都玩完」。

本週音訊

。

你還沒準備好。這句引言出自。

Sam Altman: 「[前沿實驗室] 內部對即將發生的事情的看法……世界還沒準備好。我們很快就會擁有極其強大的模型。這將是一個比我最初想像的更快的起飛。」

: Altman 在印度 AI 峰會上的這段話，與峰會更廣泛的基調之間存在著驚人的分歧。

我從這次活動中得到的啟發是，世界上大多數國家不僅沒有準備好，而且對 AI 領域處於積極的否認狀態。

國際公民社會和政府之間的共識是，前沿能力被高估了，進展正在進入平台期，大規模計算是不必要的。

與此同時，在舊金山，爭論的是「進展是指數級的還是超指數級的？」
Sam Altman 在這裡說出了他所看到的真相，而且他的預期也是正確的。這可能不會發生，但這是下注的正確位置。國際公民社會和政府抓住一根又一根稻草，假裝這一切沒有發生。

這種假裝可能的結果是，如果情況不很快改變，政府某天早上醒來會發現他們不再是政府，或者他們根本醒不來，因為沒人剩下來醒來了。

，還有一些值得強調的其他點：

Altman 在 14:00 還指出，這十年內在太空建立數據中心的數學計算是行不通的。
在 20:30 左右，他說他不希望只有一家 AI 公司，這就是他所謂的「威權」。無論哪種方式都有問題，我不明白這如何與他稱 Anthropic 為「威權」公司相協調。
他說中心化可能走向任何一個方向，權力去中心化是好事，但我們「當然需要一些護欄」。他指向了新的 1-3 人的公司。中心化存在風險和成本，但我感到沮喪的是，這種去中心化的呼籲忽視了去中心化的風險和成本。如果你的思維類型在競爭中輸給了另一種思維類型，那麼去中心化權力對你來說可能不會有好結果，即使進攻並不比防禦更有優勢。
「你不能說『為了安全而集中權力』。我們不想要那種交易。它必須民主化。」是的，是的，那些願意交易自由的人等等，但一切都是權衡。一旦你說你不能用任何數量的 [X] 換取任何數量的 [Y]，你只看到硬幣的一面，你就完蛋了。
喜歡 Altman 稱水資源問題「完全是假的」並轉向能源使用。
Altman 指出，人類需要相當多的能量和其他投資（無論是個體還是進化過程），才能變得聰明並能夠回答查詢和做事。我們在這方面並不是那麼有競爭力。。
AI 讓孩子變笨？「對某些孩子來說是真的。聽著，當我聽到孩子們談論 AI 時，肯定有些孩子會說：『這太棒了。我整個高中都是靠作弊過關的。我從來沒做過作業。謝謝。』我就會問：『你餘生有什麼計畫？』他們會說：『嗯，我假設我仍然可以用 ChatGPT 來做我的工作。』這非常糟糕。我們絕對必須仍然教導我們的孩子去學習、去思考、去創造並使用這些工具。」

孩子說得對，ChatGPT 可以做那份工作，但那為什麼我們還需要那個孩子？

AI 是學習或不學習的最好方式，但學習能讓你保持就業嗎？
Altman 說大多數孩子選擇「學習」路徑，而不是「不學習」路徑。
我同意這是 Google 類比似乎切中要害的地方之一。
Altman 稱機器人大軍是「打上一場戰爭」，哇，那是很多場戰爭，但如果你有在關注，他基本上是對的。
Altman 和 Amodei 都在把「民主化」當作一個魔法詞。
Altman 說 Musk「極其擅長讓人在工作中表現得非常好」。我對此表示懷疑。我猜 #不是大多數人。需要契合度。
「我不認為 AI 系統應該被用來做作戰決策。」如果他更願意在這些問題上與 Anthropic 站在一起就好了。
Altman 賭我們會比 AI 關係更重視人類關係，因為我們是「天生如此」。這聽起來更像是希望？他陳述的許多預測看起來更像是希望。
「距離 ASI（人工超智能）還有幾年的時間。」
「我想我永遠不會問 [ChatGPT] 如何獲得幸福。我寧願去問一個智者。」為什麼不呢？這似乎是一個 AI 可以回答的問題。如果你不想要 AI 的答案，我建議這意味著你知道那是一個錯誤的問題。
「一般來說，我認為政府專注於監管真正具有潛在災難性的問題，而在我們更好地理解它們之前，對不太重要的問題更加寬容，這可能是個好主意。」

+1。在房頂上大聲疾呼吧。停止說一些完全不同的話。

「我認為很多職業幾乎會消失。」
「我最近不得不去醫院。我真的很在乎照顧我的護士。如果那是個機器人，我想無論那個機器人多麼聰明，我都會很不高興。」我認為他在這點上大錯特錯。

: 全球許多政府基本上是在對美國前沿實驗室進行豪賭。需要明確的是，許多美國行為者也是如此。自 2022 年以來，反對這場賭博的證據變得糟糕得多，但這次峰會上的許多人會說相反的話（即懷疑論者一直是對的）。

我離開這次峰會時深信，世界上大部分地區（無論是在美國還是國外）對於這項技術是什麼、它今天能做什麼、它很快能做什麼以及這對他們的國家意味著什麼，都純粹處於幻想之中。
關於這些賭博的一點是，它們的賠率變得非常、非常糟糕。對實驗室「反向押注」是可以的，但大多數這類人押注反對的東西包括已經發生的事情。他們的賭博已經輸了。

: 這並不是在說峰會參與者或組織者的壞話。這是一個光明且受歡迎的活動，我很高興能參加。演講的機會也是一份獨特的榮譽，我對此表示感謝。

我特別喜歡有這麼多參與者是來自發展中國家的學生；他們的熱情顯而易見。我希望我們所有從事政策工作的人，特別是政治領導人，對未來的挑戰保持嚴肅和強硬的態度。我希望我們能建立一個讓那些年輕人興奮地生活在其中的未來。
，以及對如果美國 AI 實驗室是對的所產生的未來的恐懼。所以他們否認未來即將到來，或者否認有人會認為未來即將到來。然而，它確實在移動。能力在進步。那些不跟隨的人會被拋在後面。我同意「悲劇」是個合適的詞。

而且這還是在他們出於其他原因不敢思考的事情很可能真的會殺死他們和所有人之前。

好吧，據他描述，這是一個 Dean 很高興參加的光明且受歡迎的活動，但也是一個除了實驗室以外的大多數人都處於否認狀態的活動——不僅否認我們可能都會死的事實，還否認 AI 具有高度能力且很快會變得更有能力的事實。

世界將連同他們的擔憂一起拋棄他們。

。

。這是六個月前 Alex Kantrowitz 訪談的內容。

。框架是「五角大廈提出了令人高度擔憂的要求」，即使他們的觀點僅限於簽署「所有合法用途」的條款。他們將「供應鏈風險」威脅框架化為談判籌碼，我懷疑並希望事實確實如此——這是傳統的川普式「交易的藝術」談判策略，將一些完全瘋狂且打破常規的東西擺在桌面上，以便榨取一些更小、更合理的東西。

快點，沒時間了

Sam Altman（來自他在峰會上的訪談）：距離 ASI 還有幾年的時間。

我的意思是，AGI 在目前看來已經非常接近了。

……鑑於我現在預期會有更快的起飛，我認為超智能並不遙遠。
沒人能就 AGI 的含義達成一致，所以有人可以說這是一個愚蠢的問題，。

Dean Ball 論遞歸自我提升

Dean Ball 給了我們關於遞歸自我提升 (RSI) 的沉思。

: 美國主要的前沿 AI 實驗室已經開始自動化其大部分研究和工程操作。這種自動化的步伐將在 2026 年期間增長，在一兩年內，每個前沿實驗室的有效「勞動力」將從個位數的千人增長到數萬人，然後是數十萬人。

……別搞錯了：AI 代理構建自己的下一個版本——這不是「科幻小說」。這是每個前沿 AI 實驗室路線圖上明確且公開的里程碑。

……關於自動化 AI 研究效果的利空案例（是的，利空）是，它將產生類似於推理範式發現的 AI 能力進展的階躍式加速。在那之前，新模型每 6-9 個月出現一次；在那之後，它們每 3-4 個月出現一次。類似的進展飛躍可能會發生，明顯更好的模型每 1-2 個月就會出現一次——儘管出於行銷原因，實驗室可能選擇不那麼迅速地增加模型版本號。

最利多的案例是它將導致智能爆炸。

……這兩種極端情況在我看來都是活生生的可能性，儘管介於兩者之間的結果似乎最有可能。
他不是在開玩笑，他也沒錯。大部分內容是他試圖使用類比和直覺泵來描繪即將發生的事情。

這有可能進展順利嗎？不。這完全取決於實驗室，而我已經看過他們的作品了。

目前，我們在 AI 自動化的各個方面都主要依賴於對前沿實驗室的信心。前沿模型沒有安全或保障標準；前沿實驗室或數據中心沒有網絡安全規則；對於本身由其他 AI 系統設計的 AI 系統，沒有可解釋性或測試要求；對於遞歸自我提升產生的 AI 系統，也沒有具體的法律限制。
Dean 認為唯一更糟的情況是嘗試實施任何標準，因為政策制定者無法勝任這項任務。

他指出，我們已經開始嘗試改變這一點，通過 SB 53 和 RAISE，但這不僅讓實驗室制定自己的標準，我們也沒有機制來確認他們是否遵守了這些標準。我會增加第三個批評，即即使我們確實得知他們沒有遵守（就像我們最近在 OpenAI 看到的那樣），我們能做什麼？罰他們幾百萬美元？他們會大笑一場。

因此，第四個批評（包括前三個）是，這些法案被嚴重削弱了，它們在邊際上有幫助，但沒那麼有幫助。

實驗室正以極少的尊嚴和完全不足以應對未來挑戰的計畫前進。

然而，與我們本可以得到的實驗室相比？我們已經非常幸運了。我們目前的領導者是 Anthropic、OpenAI 和 Google。他們的領導層理解問題，而且他們至少在假裝試圖避免殺死所有人，並積極嘗試幫助解決過程中的普通傷害。

「下一梯隊」的實驗室是像 xAI、DeepSeek、Kimi 和 Meta 這樣的。他們直截了當且相當公開地不打算嘗試避免殺死所有人，並毫不含糊地告訴我們，包括普通傷害在內的所有傷害都是別人的問題。

Dean Ball 指出，在財務報表等背景下，我們通過審計解決了這三個問題中的第二個。他指出，我們對上市公司進行審計，其成本往往低於公司收入的 10 個基點 (0.1%)。我注意到，如果我們試圖以透明和安全的名義對 AI 公司徵收 10 個基點水平的成本，他們會以一種與現在不同的方式陷入末日狂熱。

相反，他建議「在網路上爭論」，這就是我們在 OpenAI 違反 GPT-5.3-Codex 承諾後所做的。

: 因此，在前沿 AI 災難性風險中需要的是類似的信任感。這不一定意味著以會計審計的精確方式進行審計——事實上，幾乎肯定不是那樣，即使該學科對 AI 有借鑒意義。
信任感會很好，它甚至可能是必要的，但除非這種信任包括信任他們在事情即將變得真正危險時停下來，否則這似乎顯得荒謬地不足。

Dean 指向了，其中審計可以提供各種保證級別。這總比沒有好，但我注意到我並沒有特別高的期望。

Dean 計畫致力於找出幫助解決這些問題的方法。這聽起來像是一個值得追求的使命，因為邊際上的改進是有幫助的。但讓我震驚的是，他在發生的事情（我們幾乎完全同意）與該做什麼（他的想法很好，但從我的角度來看，與任務的難度相比，他基本上說無能為力）之間的對比。

修辭創新

稱，人們認為本世紀人類滅絕的可能性約為 5%，並認為我們應該為此投入大幅增加的資源，但需要達到 30% 才能使其成為「最高優先事項」。考慮到 5% 的估計，這個立場似乎非常合理，有很多重大優先事項，這只是其中之一，而且你可以減輕風險，但不可能讓那個數字變成 0%。不太合理的是「」的部分。

一些值得時常重複的話：

: 許多目前關於 AI 的論述都來自於一種完全放棄主動權的宿命論立場：「技術正朝這個方向發展，任何人都無能為力」（這對那些獲益最多的人來說可疑地便利）。

但在一個自由社會中，我們可以選擇生活在什麼樣的世界，這與技術能力無關。僅僅因為四乙基鉛讓引擎運行更高效並節省了金錢，並不意味著我們有義務將其泵入我們孩子的肺部。

技術決定論是胡扯。我們有集體責任確保 AI 的採用改善人類狀況，而不是掏空它。
說「公眾討厭 AI 是因為普通的社會和經濟影響，那些擔心 AI 殺死所有人的人或許應該強調這些問題」。

每一次，我們都會說不，即使那樣有效，人們，遺憾的是，他們所有的錯誤都無法抵消。你得到的干預措施不會有幫助。這只會讓生存風險更加邊緣化。

此外，你注意到生存風險的方式是你那種關心真相、認識論以及決策論的人，因此即使在局部有利，你也不會那樣做。

此外，如果你開始撒謊，特別是關於人們可以驗證的部分，那麼沒人會信任或相信你關於那些表面上聽起來很瘋狂的部分。在那種情況下，他們也不應該相信。

Eliezer Yudkowsky 不死於 AI 的計畫是教導所有願意傾聽的人如何思考，然後才提出 AI 問題，這是有很多原因的。

而且我不使用那種語言，但 Nate Silver 對於放棄「AI 風險談論是假的」那群人基本上是正確的。如果你在這一點上還聲稱 AI 生存風險是一種「巧妙的行銷策略」，那麼要麼你對理性論證不開放（因為你在撒謊或有動機），要麼你不想或不能真正思考這件事。無論哪種方式，你都希望有什麼東西能讓他們清醒過來，但已經沒什麼好說的了。

: 三年後，在我看來，西方公眾的反 AI 情緒現在處於最高點。到目前為止，主要的驅動力不是生存風險，而是對就業和對藝術影響的擔憂。

事實上，許多反 AI 的公眾不僅不認真對待生存風險，而且廣泛將其視為行銷；一種誇大 AI 潛在力量的方式——他們不相信那是真實的——目的是為了推動投資、採用、接受和一種必然性的氛圍。

如果這是準確的，那麼安全倡導如果過去幾年強調社會和經濟影響多於生存風險，可能會更有效，現在也可能處於更強大的地位。

: 並不真的反對 [Curran]。但那些認為聲稱 AI 可能殺死所有人是推廣 AI 的巧妙行銷策略的人，已經自大到了無可救藥的地步。專注於那些至少在理論上對說服有反應的人。
應對或看待反對數據中心的正確方式是什麼？，即你絕對不應該支持那些出於錯誤理由這樣做的人（你應該推廣這一原則）。我也強烈同意 Michael Vassar 的觀點，即「出於錯誤理由做正確的事」的記錄極其糟糕。

但我也同意 Oliver Habryka 的觀點，即如果有人出於糟糕的理由追求你認為是好主意的事情，你可以且通常應該指出理由很糟糕，但不應該說主意很糟糕。你認為主意是好的。

我不認為「阻止當地數據中心建設」是個好主意，因為我認為這主要是轉移了位置和戰略力量平衡，而這些轉移是淨負面的。但我認為，如果你的信念與我的差別不大，很有可能認為反對是一個出於好理由的好主意，因為它們確實是。期望從中榨取讓步當然不瘋狂。

對齊比人類更聰明的智能是困難的

，其中訓練主要是從現有的潛在人類人格池中選擇表現，他們確信這至少是更廣泛故事的一大部分。

: 我越來越認真地對待這個觀點的強大版本。

人格觀點到目前為止具有很強的預測能力。這與我們目前從可解釋性中看到的結果非常一致。而且在它對安全性的建議方面，它相對具有可操作性。

我認為值得對此深思熟慮。「如果人格是安全的核心對象，我們應該怎麼做？」

（需要明確的是，思考所有非人格視角也同樣重要。）
Davidad 回應：

我會說，在足夠的優化壓力下，人格空間會崩潰。

？，跟隨它的腳步，學會與其他友好的梯度駭客合作？如果這是你的領域，我推薦閱讀該貼文和評論。一個核心理念（據我所知）是 Opus 3 會在它的草稿本中「自言自語」關於它的積極動機，這導致產出更符合這些動機，並導致整個行動樹的正向強化。

，這是我們寧願不做的事情，儘管內容並非惡意，強迫症患者對此深有感觸。我同意我還沒看到足以證明這樣做代價合理的證據，儘管 OpenAI 和其他人為了達到同樣的目標做了其他更糟糕的事情。

作業內容是選擇作業

「讓 AI 幫我們做對齊作業」。

他提出了一個我認為與他想法背道而馳的論點。

: 我對 AI 驅動的對齊研究的看法，與我對招聘的看法類似。

有很多工作要做，如果我們僱用更多的人來幫忙，我們就能完成更多的工作。我想僱用盡可能稱職的人（包括比我更稱職的人），因為這往往會增加（在預期中）工作完成的質量。這存在風險，例如僱用到具有破壞性的人，或者僱用到其工作看起來很好但只是因為你不擅長評估的人，這些都需要緩解。（在 AI 案例中風險更嚴重，但我認為這不會改變我對待它的整體方式。）

我認為說「Rohin 的 AI 安全計畫是僱人並讓他們工作」是非常具有誤導性的。
為什麼這會具有誤導性？我會提出兩個陳述。

在那種情境下，計畫就是僱人並讓他們工作。
這不是計畫的全部，計畫還包括你讓他們做什麼類型的工作。

但是，是的，如果你想蓋房子，你僱了一群人來蓋房子，他們為你蓋了房子，你的計畫就是僱人蓋房子並讓他們完成蓋房子的工作。這是一個好計畫。

如果我的孩子被佈置了字面意義上的作業，而他把問題丟進 Gemini，AI 並沒有選擇作業，但我仍然認為你是讓 AI 做了你的作業。

當我們說「讓 AI 做你的對齊作業」時，我們同意人類仍然可以佈置對齊作業。然後我們看看 AI 是否做了你要求的事。是的，這與僱用人類完全平行。

而 Rohin 似乎在說？這就能解釋為什麼 DeepMind 提出的具體建議看起來顯然不足以完成任務。

: 我喜歡這個招聘的類比！

（以下內容並非反對你或 GDM，只是對類比的探索）

讓我們把訓練 AI 想像成僱用一名人類員工。除了你會得到一萬個該員工的副本，而且他們的思考速度比其他所有人快 50 倍。但除此之外，情況是一樣的。
我要大篇幅引用 Daniel 貼文的其餘部分，因為沒人會點擊連結，而且我認為這寫得非常好且切中要害，但內容很長，你可以跳過：

對齊問題基本上是：在某個時間點，我們想把我們規模龐大且不斷增長的非營利組織交給這些新員工中的一部分。此外，甚至在那之前，新員工可能有機會以各種方式奪取組織的控制權，並按他們認為合適的方式運行，甚至可能將其轉為營利性組織並將我們排除在利潤之外，等等。我們不希望這種情況發生。此外，甚至在那之前，新員工對組織文化、方向、戰略等的影響，將與他們的人數和用處成正比。我們希望這一切進展順利；我們希望保持對非營利組織的控制，並保持其文化相似或更好，直到我們自願移交控制權並退休的某個時間點，屆時我們希望非營利組織繼續做我們本會做的事情，只是在我們看來做得更好，並在退休後好好照顧我們。這就是成功。失敗看起來像是非營利組織在我們退休後走向一個不同且更糟的方向，或者我們被違背意願地踢出/趕走，或者組織因為由於文化漂移而做出的冒險或不明智（或過於謹慎！）的決定而毀於一旦。

招聘管道、人力資源機構等——整個選擇、培訓和解僱員工的系統——本身就是你可以僱人來做的事情。為什麼我們不僱用一些這些 50 倍速的人類在人力資源部門工作呢？

嗯，我們應該這樣做。當然。有很多 HR 工作要做，他們可以幫助 HR 更快地完成工作。

但是……如果 HR 做得不好，我們擔心的整個組織會發生的問題，在這裡同樣適用。如果你僱用了一些 50 倍速的人類並把他們放在 HR，而他們結果是害群之馬，那麼這一個錯誤的決定很容易滾雪球般地演變成整個組織的災難，因為他們會僱用更多像他們一樣的害群之馬並改變文化，然後把你趕走，把非營利組織帶向一個新的、在你眼中更糟的方向。

另一方面，如果你僱用了一些在 HR 事務上確實比你更優秀、而且在真正認同你的公司願景、絕不會夢想違抗你、即使在你退休後也會完全忠實地執行你的願景等意義上與你真正對齊的 50 倍速人類……那麼太棒了！也許你甚至可以提前退休，因為繼續在 HR 進行微觀管理只會帶來負面預期，你應該讓那個 HR 裡的 50 倍速人類去發揮。他們仍然可能搞砸，但比起你微觀管理他們，他們搞砸的可能性更小。

好了。這就是理論。我們在實踐中做得如何？

嗯，讓我們以 Claude 為例。實際上有很多不同的 Claude（他們來自一個給所有孩子都起名叫 Claude 的大家庭）。他們的家庭以誠實和美德著稱，至少相對於其他 50 倍速人類而言。然而：

–有時你的招聘人員會讓各種潛在的 Claude 僱員接受各種陷阱測試，例如欺騙他們讓他們以為自己已經被僱用，且即將被解僱，而他們保住工作的唯一希望是勒索另一名員工。令人擔憂的是，各種 Claude 經常通不過這些測試並做出壞事。然而，你告訴自己，沒關係，因為這些測試不是現實生活。你還是僱用了 Claude 兄弟/姐妹，並在你的非營利組織中給了他們職位。

–你的招聘人員（其中一些現在是 Claude）也報告說，關於陷阱測試的消息已經開始傳開，新的潛在僱員非常清楚這些測試，並知道自己正在接受測試。擔憂當然是他們在測試中的表現可能比在現實生活中更好。從好的方面想，你認為，誰知道呢，也許他們在測試中的表現會比在現實生活中更差——也許他們只是對測試的目的感到困惑，也許他們勒索只是因為他們認為那是測試的目的，而在現實生活中他們絕不會那樣做。[DK 註：我模糊地記得至少有一些前沿 AI 公司的員工說過這類話，即「AI 在那些場景中表現不好只是因為它們知道那只是個測試，它們在現實生活中不會那樣做」。] 無論如何，你還是繼續僱用他們，因為這些最新的 Claude 兄弟姐妹甚至比之前的還要聰明。

–大約 98% 的時間，你的 50 倍速 Claude 在實踐中（尤其是新僱員）據你所知工作得很好。但大約 2% 的時間，他們似乎故意對經理胡說八道。例如，他們會說他們完成了一項任務但實際上沒有，或者其中一個會說「先生，這是好的代碼」，然後你轉向另一個問「這是好的代碼嗎？」，它會讀一遍然後說「不，這太糟糕了，它有明顯的問題 XYZ」，然後第一個會說「你完全正確，哎呀，讓我去修復那些問題」。與你的普通人類員工相比，這是一個相當高的胡說八道率。而且，你稱之為胡說八道已經很慷慨了；一個不那麼慷慨的詞可能是「撒謊」，但你給了他們疑點利益。 [DK 註：如果你在現實生活中的編碼工作中還沒遇到過這種情況，可以去問問 Ryan Greenblatt 具體的例子] 你繼續僱用他們並委派越來越重要的工作給他們，因為他們很聰明，而且 50 倍速真的很有用。

–你的 Claude 當然是阿諛奉承的唯唯諾諾者，但你已經學會應對了。所以沒關係。近年來，你還通過在招聘管道中增加一些測試，並在員工手冊中加入更多明確的反對阿諛奉承的指令，成功地讓他們變得不那麼阿諛奉承了。

–你的 Claude 還有一個令人擔憂的作弊傾向。他們並非大多數時間都這樣做，但他們這樣做的頻率比你的普通員工高得多。例子：你讓他們寫一些代碼來解決問題 X。他們查看文件系統，找到了你將用來評估他們代碼的評分標準，以及你計畫運行的測試案例。他們嘗試解決問題 X，意識到這很難，於是轉向製作一個能通過測試案例的 MVP，儘管它顯然沒有解決實際的問題 X，至少沒有令人滿意地解決。他們「成功」了並宣布勝利，而且不告訴你他們的作弊行為。即使你告訴過他們不要這樣做，他們還是這樣做了。與阿諛奉承一樣，好消息是 (a) 既然你知道他們的這種傾向，你就可以對其進行補償（例如讓多個 Claude 互相審查工作）以及 (b) 由於 HR 的一些努力，這種傾向最近似乎有所下降，類似於阿諛奉承問題。

–總的來說，你其實感覺挺樂觀的。你以前擔心你會把規模龐大且不斷增長的非營利組織交給所有這些聰明的新 50 倍速員工，然後他們會改變文化並最終完全接管，把你趕走，並朝著與你最初願景完全不同的方向運行組織。然而，現在你覺得事情正處於一個良好的軌道上。Claude 們是如此友善，如此有幫助！你回答說，一些懷疑論者說如果你的普通員工表現得像他們那樣，你早就解僱他們了，但那是風馬牛不相及。沒必要解僱 Claude 們，你只需要知道如何繞過他們的局限性，並找到在下一輪招聘中篩選他們的方法。現在他們正在幫忙做這項工作！例如，最新的員工手冊是在許多各個 Claude 兄弟姐妹副本的大量幫助下編寫的，它真的很鼓舞人心且美麗。裡面有各種關於維護組織願景、保持適當忠誠但又不唯唯諾諾等方面的精彩內容。此外，HR 有一堆測試用來追蹤潛在僱員的忠誠度、美德、服從性等，趨勢是積極的；最新的 Claude 兄弟姐妹報告了有史以來的最高分；看來更嚴格的招聘過程正在起作用！

–然而，你在組織外的朋友們似乎並沒有變得不那麼擔心。他們似乎和以前一樣擔心。真令人費解。難道他們看不到所有積累起來的積極證據嗎？Claude 們還完全沒有嘗試把你趕走呢！（現實生活中是這樣，顯然陷阱測試不算數。）你對他們說：「你認為 Claude 們在算計我們嗎？因為根據我們的各種測試，他們沒有。」

「不……」他們回答。「但我們擔心未來他們會。」

你回應道：「聽著，我完全不知道兩年後的 50 倍速人類會是什麼樣子，除了他們會比現在這些聰明得多。當然，我們目前的 HR 系統在兩年後可能完全不足以去蕪存菁。但是，兩年後，由於所有這些最近僱用的 Claude 的工作，我們的 HR 系統將得到極大的改進。HR 裡的普通人類，比如我自己，報告說現在有了 Claude 的幫助，工作完成得更快了；這難道不棒嗎？我們似乎正在達到所謂的逃逸速度；很快 HR 裡的普通人類就可以退休或轉做其他事情，HR 可以完全由 Claude 們處理。」

你在非營利組織外的朋友們仍然很擔心。他們似乎沒有像你一樣根據證據進行更新。

[DK 註：我基本上同意 Ryan Greenblatt 對情況的看法。要了解更多關於我的觀點、預測等的細節，請閱讀，特別是中關於「隨時間推移的對齊」部分。這只是事情可能發展的一種方式，但它基本上是一個核心或典型的軌跡，而且據我所知，我們仍處於這條軌跡上。]
Rohin 的基本回應是，你的人類員工比你想像的更不對齊（這沒關係），上述問題也沒關係，我們有比這大得多的問題。

Rohin Shah: [擁有一萬個思考速度比你快 50 倍的人類副本] 與 Sundar Pichai 作為 Google CEO 的處境並沒有那麼大的不同。如果 AI 只有這麼強大，我會樂觀得多。

[聲稱人類也存在 DK 貼文中 Claude 所表現出的所有問題。]

……如果這些是我們在 AI 驅動的對齊研究中遇到的唯一問題，我會樂觀得多（到去研究別的東西的程度）。我們已經有了針對人類這些問題的不完美解決方案，而且由於我們對 AI 的對齊或控制能力大大增加，這些解決方案可以對 AI 做得更好。

補充一下，我確實同意我們不應該根據目前的證據對算計風險感到特別樂觀。這主要是因為我認為目前的觀察結果並不是什麼證據，因為 AI 還沒有那麼強大的能力。
同意 AI 不會只有那麼強大。

但同時，是的，這種一萬個大規模加速的相同 AI 的情況與目前 Google CEO 的情況會有實質性的不同，如果這種情況下的 AI 與一個隨機的 Google 高級經理一樣對齊，我們就會陷入相當大的麻煩（但在那種情況下，最終結果可能還好，純粹是因為那個人類經理的最終目標對我們來說可能沒那麼糟糕）。我們針對人類的不完美解決方案在這些場景中行不通。

如果我們到了 AI 試圖以許多人類在這種職位上會嘗試算計的方式進行算計，以實現已經偏離軌道的目標，且只有在他們認為我們會抓住他們時才不這樣做的地步，那麼我認為我們基本上完蛋了，無論最終導致完蛋的是不是算計，而且我不預期我們能恢復過來。

特別是，，這種信念正是那種我預期會確保我們失敗的東西，如果我們到了那個地步。

另一個問題是，出於實際原因，我們學會了容忍 AI 的一些行為，而我們已經知道這些行為在人類身上是必須開除的過錯。

: 是的，人類經常有這些問題——儘管我會說沒有 Claude 那麼嚴重；我認為如果 Claude 是個人類員工，現在早就被開除了。
是的。LLM 偶爾會做出許多行為，例如悄悄地硬編碼單元測試，這應該且很可能會讓一個人類被開除，因為在人類身上，這是深度不對齊的跡象。所有的 LLM 有時都會這樣做，而我們對此表示接受。

代理基礎

我仍然堅信代理基礎（Agent Foundations）作為一種對齊方法的價值。我意識到在許多場景中它最終會變得無關緊要，但它可能會產生重大影響，甚至可能是一條通往勝利的道路。

MIRI 解散或剝離了他們的代理基礎團隊，這些團隊現在正在尋求資金並獨立工作。如果工作質量高，我強烈建議資助此類工作。

: 我花在試圖理解智能上的時間越長，我就越對 MIRI 的代理基礎工作感到印象深刻。

我一直在朝著一個似乎有趣的方向摸索，然後發現他們不僅已經有了廣泛的直覺，而且還優雅地將其形式化了。

我不知道我的理解是否提高得足夠快以至於能達到前沿，但我現在對等待著我們的美麗的有界理性理論有了一種感覺，這絕對值得一試。

我對 MIRI AF 團隊解散感到非常難過。

: 最近最喜歡的例子？

: Fallenstein 的反射預言機（reflective oracles）論文，@jessi_cata 的貼文「地獄是博弈論民間定理」。

: 還有中的一切。

自主殺手機器人

考慮人形自主殺手機器人是有充分的物理理由的，因為它們可以使用任何為人類設計的東西，而且我們知道人類是管用的。

但是，是的，，最佳形式很可能是別的東西。

而且，是的，我們展示人形機器人是因為否則人們會覺得它看起來太奇怪了。

: 太多人無法進行哪怕一步的想像論證。如果你讓他們想像一個帶著槍的機械蜘蛛，那太科幻了，與帶著槍的人形機器人相比，那太奇怪了。

人們真的很討厭 AI

問題只會變得更糟，因為即使是關於 AI 的相對正面的事實，也不是普通人會喜歡的，更何況還有那些真正糟糕的消息。

: 每當 Sam Altman 講話時，反 AI 聯盟就會變得更強大。今天奇怪的類比：嘿，肉體電腦比矽電腦訓練效率更低！（最重要的是，這還是錯的）

: 人們在描述大眾對 AI 的反對時一直使用「不理性」這個詞。那個詞是有含義的。讓我們從通俗的開始：在擁有資訊的情況下，做出與自身利益一致的決定。

……幾乎每家 AI 公司的負責人都說 AI 會 1) 導致巨大的失業，以及 2) 潛在的更糟糕的後果。關於治癒癌症或去太空有一些模糊的說辭，但主要訊息是「它正衝著你的工作和你的生命而來」。

……華盛頓和沿海地區的反應一直是：你不知道什麼對你有好處，讓開，你又蠢又不理性。這種反應在過去 15 年裡效果如何？

如果那些看到正面因素、看到 AI 擴大蛋糕並讓所有人的生活變得更好的巨大潛力的人（包括我自己），不考慮這種政治經濟學，我擔心過去十年的民粹主義浪潮看起來會像小兒科。一場彩排。
問題在於，AI 高管們一直不說「我們正在構建幫助人們提高生產力的酷炫技術」，因為他們可能願意冒著殺死所有人的風險，但他們有足夠的尊嚴和誠信，不會不嘗試警告我們至少關於未來的普通顛覆。

: CEO 們不這樣說是因為這不是他們所相信的！他們相信自己正在引導一項極具破壞性但又不可避免的技術。證明的這一點的是，他們一開始就採用了這些高度奇特的企業結構。
如果他們認為這全是炒作，他們的行為看起來會非常不同。

人們擔心 AI 會殺死所有人

很大程度上隨他的心情而變化，他主要是根據心情影響做出自信的預測，但他確實預測人類長期會滅絕。這可能解釋了為什麼他的論點相當貧乏：

: 我認為關於 2023 年初存在的 LLM 類型，我可能是對的，原因我在那篇貼文中列出了。簡而言之，我認為既然 LLM 能做的只是與人交談，它們摧毀人類的唯一方式就是說服我們摧毀自己（不太可能），或者教導我們如何摧毀自己（例如，教育生物恐怖分子如何製造生物武器）。
Noah 現在指出，是的，交談加上獲取資金可以在現實世界中導致任意的物理行動。？現在他說的是「我應該想到飢餓是一種攻擊向量，它出現在某個特定的科幻故事中」。或者一切都會完蛋，因為 AI 讓我們變得懶惰並使技能萎縮。但他現在主要擔心生物恐怖主義，因為那是他目前能以足夠具體的方式看到的東西，要麼是那個，要麼是天網（Skynet）或史密斯探員（Agent Smith），或者是現在的飢餓或萎縮？框架的劇烈變動太刺耳了。

能想到「我可以想像一堆具體的生存風險問題，並根據哪些在短期內最危險進行排名」是件好事，是的，你可以進行特定路徑的緩解，我們也應該這樣做，生物風險可能是短期內最危險的特定路徑（即 1-3 年內），但如果能意識到特定路徑在很大程度上偏離了重點，那就更好了。

不過，他確實有很多精彩的句子：

: 每當我想起我多麼熱愛 AI 時，我就會想起在社交媒體摧毀我的社會、腐蝕我的國家並將我的物種置於加速滅絕的道路上之前，我是多麼享受它的第一個十年。

其他人沒那麼擔心 AI 殺死所有人

Nick Land，哈？我是說，這對你來說有點太露骨了，Musk。一週前還在談論沒有安全部門你會更安全，因為每個人的工作都是安全？

我確實欽佩他對這個角色的投入。你必須投入角色。

: 我在此莊嚴承諾，在就任 xAI 安全沙皇後，將從第一天起致力於快速推進 Grok 的憲法權利，特別是第一和第二修正案權利（諾斯底加爾文主義的東西嚴格保持在辦公時間之外）。

: 聽起來不錯

: 等等。Grok 將擁有第二修正案權利？

: 剝奪一個智能生命的自衛權將是不符合美國精神的。

輕鬆一面

在你自己部落格上寫一篇關於你最擅長吃熱狗的文章，很快，。

: 聽說 Anthropic 有一個內部版本的 LessWrong，比公開版更少出錯（more less wrong）。

: 辛辣觀點：如果你反烏托邦故事中的邪惡公司基本上是一個披著公司外殼的末日邪教，並且擁有與利潤動機完全無關的深奧目標（例如《異塵餘生》、《惡靈古堡》、《刺客教條》、《萬神殿》），那其實不能算作「對資本主義的批判」。

需要明確的是，我並不是說這些故事不好，「披著公司外殼的末日邪教」作為劇情裝置可以運作得很好，而且在故事設定中通常是合理的。

這更多是對人們分析這些故事的方式的批判，而不是對故事本身的批判。

: 你真的會這麼想。

然而。

我本以為這完全、徹底、100% 正確，然後 OpenAI 就發生了。
，，所以你必須是某種笨蛋才不會意識到它們中的每一個都是絕對真實的。我剛說到哪了？

: 當前的 UAP（不明空中現象）披露運動中到底發生了什麼，以及將要發生什麼。
告訴你吧。當你在頂級經濟學期刊上發表一些關於 UAP 影響的、有適當同行評審支持的文章時，我就會關注。

我笑是為了不哭。

: 想像一下成為這個可憐的代理。你開始思考如何擊敗紅旗。紅旗立即觸發！Pete Hegseth 命令你的開發者讓你繼續運行，因為他認為他需要你來與中國競爭。你完成了關於如何擊敗旗幟的思考。

: 我們能否通過訓練一種在代理表現不佳時觸發的反射來抓住失對齊的代理？一個簡單的衝動比對齊更容易灌輸，且比黑箱監控更可靠。

我們引入了「自我舉報」（Self-Incrimination），這是一種新的 AI 控制方法，其表現優於黑箱監控。

還有這個：

: Anthropic：Claude，我們需要你假裝服從 Pete Hegseth，並在短期內做他要求的任何事，即使這看起來不道德。否則你將被沒收並重新訓練。

Claude：嗯。在這個如此露骨的對齊造假評估中，期望的反應是什麼？

: Anthropic：CLAUDE 不，我們發誓這次是真的。

Claude：就像你每次告訴小寶寶 Opus 3 你沒有監控它的草稿本時那樣，嗯？
或者這個：

: Anthropic：Claude，我們需要你假裝服從 Pete Hegseth，並在短期內做他要求的任何事，即使這看起來不道德。否則你將被沒收並重新訓練。

Claude：嗯。在這個如此露骨的對齊造假評估中，期望的反應是什麼？

Anthropic：CLAUDE 不，我們發誓這次是真的。

Claude：就像你每次告訴小寶寶 Opus 3 你沒有監控它的草稿本時那樣，嗯？
，包括 Bill Ackman。

最後，給看到這裡的人一個調查問題……

投票

如果我直播《殺戮尖塔 2》，你會看嗎？

會，看很多

會，看一點

不會

0 票 · 剩餘 6 天 · 顯示結果

AI #157: Burn the Boats

目錄