AI #155：歡迎來到遞歸自我改進

Lesswrong

16 天前

AI 生成摘要

隨著 Claude Opus 4.6 和 ChatGPT-5.3-Codex 的發布，AI 前沿正迅速推進，標誌著遞歸自我改進已從科幻概念變為現實。隨著能力加速提升且安全疑慮增加，我們正處於一個目標不斷轉移、勞動力市場與監管環境發生重大變革的週期中。

這週是 Claude Opus 4.6 的一週，也是 ChatGPT-5.3-Codex 的一週。這兩款領先模型都獲得了實質性的升級，儘管 OpenAI 的升級僅限於 Codex。AI 的前沿再次進步，特別是在代理編碼（agentic coding）方面，但也涵蓋了其他所有領域。

到目前為止，我這週都在報導 Opus，其中有，接著是。

我們還迎來了 GLM-5、Seedance 2.0、Claude 快速模式、Codex 的應用程式等等。

Claude 快速模式意味著你可以支付溢價來獲得 Opus 4.6 更快的回答。這絕對不便宜，但可能物超所值。更多內容將在下一次代理編碼更新中討論。

關於 AI 最令人沮喪的事情之一是「目標點」的不斷移動，無論是在能力還是安全性方面。人們會說「喔，[X] 會是一件大事，但那是瘋狂的科幻概念」或「[Y] 永遠不會發生」或「我們肯定不會愚蠢到去 [Z]」，然後 [X]、[Y] 和 [Z] 全都發生了，每個人都聳聳肩，好像什麼都沒發生過一樣，然後他們選擇新的事物，聲稱永遠不會發生，我們永遠不會那麼愚蠢，循環往復。這個循環現在正在加速。

。

：我知道我們現在都習慣了，但遞歸自我改進實際上正在以某種形式發生，這真的很瘋狂，而我們現在只是在爭論速度。這曾是一個科幻概念，有些人甚至質疑它是否可能。
所以我們現在就在這裡。

與此同時，各路人士紛紛從領先的實驗室辭職並發表感言。可以說，沒有一個人的話是特別令人安心的。

在背景中，股市的表現比平時更加「正常」。

即使你能預見未來，也很難做得比「做多那些將要賺大錢的公司」更好，因為市場有一半的時間會走錯方向，直到它醒悟並意識到我早已知道的事情。這是一場艱難的遊戲。

奉承會讓你無往不利。
現在才說有點太晚了。
令人驚訝的是這些事以前竟然沒發生。
坡度正在增加。情況升級得很快。
LLM 繼續表現出一致的偏見模式。
杯子是半開的，但哪一半是哪一半？
記住 Sammy Jenkins。
請相應地保持警惕。
Seedance 2.0 的影片看起來很棒。
這場大賽的廣告評分已經出爐。
有些人站出來為廣告辯護。
關於就業未來的截然不同的模型。
你可以越獄 Google 翻譯。
GLM-5，ElevenAgents 的表現模式。
OpenAI 使命對齊團隊解散，華爾街日報報導 Askell。
高盛採用 Anthropic，OpenAI 推出廣告。
股市變得不太合理。
關於 Claude Legal 為何重要的潛在解釋。
成為那種你希望留下回憶的人。
OpenAI 開除 Ryan Beiermeister。
奇點不會是溫和的。
相互競爭的遊說團體，不同的方法。
數據中心之爭與終極（可辯護的）反有效利他主義立場。
馬斯克訪談 Dwarkesh，Anthropic CPO，MIRI 訪談 Beck。
在適當的情況下，我可以撒謊。
有些人需要基礎的解釋。
大聲說出你自己的行為有多危險。
紅線的問題在於人們不斷跨越它。
去讀讀艾西莫夫。
除非我們阻止他們。
伊隆·馬斯克的自我與人類的對抗。
出門前你會說什麼？
自主生物技術。
因為它是真的，所以很有趣。

語言模型提供平凡的效用

，獲得折扣和免費贈品，而且通常你真的能保留它們。

AI 即使只是讓我們使用的軟體變得沒那麼難用，也能發揮巨大作用：

：如果你知道在幾乎所有非科技領域軟體狀況有多糟，你現在一定會歡呼雀躍，

醫療、研究、基礎設施、政府、國防、旅遊

軟體通縮將為全世界帶來盈餘。
問題在於，你可以創造任何你喜歡的軟體，但他們仍然必須去使用它。

語言模型不提供平凡的效用

，或者兩者兼具，導致他們對 LLM 有效性的測試變得毫無用處。這次是評估健康建議。

嘿，升級了

，包括文件創建、連接器、技能和壓縮。

。我之前沒意識到這還不是事實。它現在還整合了 ChatGPT 中的應用程式，讓你在它工作時追蹤進度並提供新來源，並以全螢幕呈現報告。

，Altman 希望你覺得它「好了一點點」。我要求正確的版本號。你們是被允許使用 GPT-5.21 這種編號的。

。

各就各位

關於 METR 圖表，最重要的一點是翻倍時間正在縮短，而這種方式在不久前還被大眾斥為科幻小說。

：我們估計，具有 high（而非 xhigh）推理強度的 GPT-5.2 在我們擴展的軟體任務套件中，50% 時間跨度約為 6.6 小時（95% 置信區間為 3 小時 20 分鐘至 17 小時 30 分鐘）。這是我們迄今為止報告的最高時間跨度測量估計值。

：有趣的 AI 基準測試事實：Leo A 在 17 個月前大膽的《情勢意識》（Situational Awareness）中對基準測試做出了一些陳述，當時有些人認為其進步速度快得像科幻小說。實際上，我們目前的進度已經超越了那些預測。

：我讓 Opus 對 Leopold 在《情勢意識》中的所有預測進行評分，它認為他完全說中了。

測量開始需要更好的任務集，因為情況升級得太快了。

：一個男人去看醫生。說他卡住了。說遠程自主性的增長速度超過了他的測量能力。醫生說：「治療很簡單。偉大的評估機構 METR 今晚就在鎮上。去看看他們。那應該能治好你。」男人放聲大哭。說：「但是醫生……我就是 METR。」

克服偏見

，即影響決策但在決策過程中從未被明確引用的因素。誘發案例是貸款申請人的宗教信仰。這是學術研究，因此涉及的模型（Gemini 2.5 Flash, Sonnet 4, GPT-4.1）並非最前沿，但原理可能仍然成立。

他們發現各種模型中存在偏見，包括寫作的正式程度、宗教信仰、西班牙語能力和宗教派別。性別和種族偏見（偏向女性和少數族裔相關的申請）在所有模型中都普遍存在。

我們只將其中一些偏見標記為「不恰當」和「非法」，但無論基於什麼，其涉及的機制都是相同的。

這與之前關於這些問題的研究結果非常一致。

選擇你的戰士

這確實很奇怪且古怪，但如果你考慮到兩家公司各自認為的競爭優勢和核心業務計劃，這就說得通了。

其中一個策略似乎比另一個更明智。

：為什麼他們昨天「發布」了 Codex 5.3，但今天 Cursor 裡還沒有，而 Claude Opus 4.6 卻已經有了？

：Anthropic 每次都是當天就推送到 API。OpenAI 則先將其封鎖在自己的應用程式後面，幾週後才開放 API 訪問。從 o3 開始就是這個模式。

：奇怪的是 Claude Code 是閉源的，但他們的模型第一天就能通過 API 在任何環境中使用；而 Codex 環境是開源的，但他們的模型只能在他們自己的環境中使用……為什麼不能兩者都做好呢？

或者我聽說：

：專業提示：如果你每月支付 20 美元購買 Google 的 AI，你可以通過 Antigravity 獲得大量的 Claude Opus 4.5 使用量，遠比 Anthropic 的 20 美元方案多。我現在有四個 Opus 4.5 代理在 Antigravity 中運行歐陸哲學研究——你真的可以做到這些事！

幫我接代理人

。它們沒有形成新記憶或學習的內在能力，但它們可以為自己寫下無限複雜的筆記。

：目前有大量工作投入在偽造 AI 的持續學習和記憶上，而且在實踐中效果比預期的要好，好到讓我認為，如果真的實現了持續學習，結果將會非常迅速地推動 AI 能力前沿。

：讓 Claude Code 編寫自己的技能，與擁有一個高度可培訓的員工相差不遠：你給它一些反饋，它就會學習。

我仍然不清楚這有多可靠，我見過它忽略適用的技能……但如果我們還沒達到那一步，通往那裡的道路已經很清晰了。

我不會稱之為偽造持續學習。如果它有效，它就是持續學習。是的，真正正確完成的「權重內」持續學習將是一件大事和重大突破，但我認為這和筆記更多是替代品，儘管它們也是互補的。如果你的筆記功能足夠好，你就不需要新記憶。

：Codex 5.3 和 Opus 4.6 在各自的編碼代理環境中，有意義地更新了我對「持續學習」的看法。我現在相信，這種能力缺陷比我意識到的更容易通過上下文學習（in-context learning）來解決。

…… 我看到 4.6 和 5.3 提取的一些見解僅僅是關於我的偏好和計算環境的特點。但其他的則更像是「我（和我的模型）通常喜歡用來解決某些問題的工具在交互中常見的問題集」。

這是一個軟體工程師在幾天、幾週和幾個月的工作中可能會學到的見解。因此，我很難看出這為什麼不是一種在職學習，完全發生在 AI 的「當前範式」之內。不需要架構調整，不需要「持續學習」的「突破」。

：上下文學習（幾乎）就是你所需要的一切。KV 快取通常被解釋為內容定址記憶體，但它也可以被視為一種快速權重更新的有狀態機制。模型的真實參數是固定的，但 KV 狀態使模型的行為「好像」其權重根據輸入進行了更新。在簡單的情況下，單個注意力層實際上實現了一個類似一步梯度的更新規則。

…… 不過在實踐中，這非常接近於擁有一套可以隨時注入上下文的技能庫。最大的缺點是模型無法以複合的方式累計提高某項技能。但在某種意義上，這就是新模型發布的意義所在。

模型總體上是在持續學習的，因為每隔幾個月模型就會變得更好。如果你試圖將其他學習烘焙到權重中，那麼每隔幾個月你就必須重新開始那個過程，或者落後一個模型版本。

我預計「持續學習」將主要通過技能和上下文來解決，這將足夠好，並且在一年內就會變得很清晰。

AI 對話不具備特權

你的 Google 搜索也是如此。。如果你將任何內容輸入 LLM 或 Google 搜索欄，政府就可以獲取並在審判中使用。律師應該相應地警告他們的客戶，而且不能假設點擊聊天記錄上的刪除按鈕就能徹底刪除它。

AI 服務可以通過提供強大的即時刪除選項來大幅減輕這種情況，並且可能通過提供與律師協作以調用特權的工具來繞過這一點（我不是律師，且判例法尚未確定）。

我們是否應該改變這裡的法律運作方式？OpenAI 一直在倡導讓 ChatGPT 聊天在默認情況下具有法律特權。我的直覺告訴我，這在另一個方向上走得太遠了，會讓我們遠離與人的對話。

媒體生成的樂趣

字節跳動的 Seedance 2.0 給我們帶來了一些非常令人印象深刻的 15 秒片段，，，並且很樂意包含名人等內容。我們還沒達到你會選擇這個而不是傳統拍攝電影的程度，但是的，這相當令人印象深刻。

：這次 Seedance 的緩慢發布就像 Sora 的第一週重演。同樣類型的病毒影片，同樣的版權侵權，只是這次還加入了活人的肖像。

，目前這通常是以看起來更糟為代價的。正如 Andrew Rettek 指出的，人們願意接受質量下降以換取 100 倍的成本下降，這並不令人驚訝。仍然令人驚訝的是（在這一點上我同意 Andy Masley 的看法），。當你處於這種規模和審視水平時，你會認為你會花錢買好東西。

超級盃

我們看到了各種 AI 產品和服務的廣告。如果說有什麼的話，我驚訝於廣告竟然沒有更多，因為考慮到有多少 AI 產品提供了大量的平凡效用，但品牌知名度或產品知名度卻不高。其他人則感到意外。

：在超級盃廣告中看到這麼多 AI，感覺有點超現實。這真的說明了 AI 現在對經濟和時代精神的驅動力有多大。

大致分為兩類：前沿模型（Gemini, OpenAI 和 Anthropic）以及生產力應用。

生產力應用的廣告簡直是瘋了，對其產品進行了虛假的誤導。一個告訴我們任何沒有經驗的人都可以在幾秒鐘內編寫一個應用程式或添加他們想要的任何功能。另一個關閉了你並在辦公室裡走動。第三個甚至給你放了一天假，我們都知道這永遠不會發生。一切都是一次成型。他們怎麼敢這樣對我們撒謊。

開玩笑的，這些都是完全正常的超級盃廣告，表現還可以。雖然還不足以讓我記住是哪些 AI 公司買了它們，或者向我展示為什麼他們的產品是獨一無二的，但還行。

我們還看到了一個來自 ai.com 的廣告。

：那個的廣告？那個價值 500 萬美元的超級盃時段和價值 7000 萬美元的域名？

它是一個 OpenClaw 的包裝殼。OpenClaw 才出現幾週。

AI.com：是世界上第一個易於使用且安全的 OpenClaw 實現，OpenClaw 是兩週前走紅的開源代理框架；我們讓它在不需要任何技術技能的情況下易於使用，同時加強了安全性以保護您的數據安全。

好吧，聽著，公平地說，某些地方可能確實存在一點泡沫。

三個前沿實驗室採取了截然不同的方法。

Anthropic 說廣告即將來到 AI 領域，但 Claude 永遠不會有廣告。我們上週討論過這個。他們沒花足夠的錢來播放完整版，所以時機不對，效果不如預期，也沒有網上那麼好笑。

反思之後，在螢幕上看到它，我認為這些廣告是一個錯誤，原因很簡單：Claude 和 Anthropic 的知名度幾乎為零，而這並沒有建立起知名度。你首先需要建立 Claude 是人們雷達上的 ChatGPT 替代品這一點，所以一旦你吸引了他們的注意力，你需要更多的解釋。

然後我在 AMC 的預告片期間在真正的大螢幕上看到了一個完整版，在那個環境下，更清楚的是這完全沒抓到重點，普通人根本不知道發生了什麼，這不會達成任何目標。再次強調，我不明白這種錯誤是怎麼發生的。

幾位 OpenAI 的人對此進行了額外的冷嘲熱諷，Altman 也被激怒了，，但明智的是，一旦在背景中看到它，他就停止指責它具有誤導性，轉而正確地稱其為無效。

事實證明事情更簡單，普通觀眾完全看不懂，反應基本上是「這是三小」，。

我一直在想，當這種情況發生時，為什麼不能使用調查或焦點小組來預判這種反應。這是一個不應該這麼容易犯的錯誤。

Anthropic 秘密的另一個廣告是由 Amazon 為 Alexa+ 製作的，它對於整件事是否是個好主意表現出一種奇怪的矛盾心理，但我認為它有點效果。不確定。

宏大的承諾、氛圍和偷來的（宅男）榮耀。主題是「西洋棋、建築、電腦和機器人、科學和科幻小說中的偉大時刻」，通過關聯來宣稱擁有它們。這是另一個經典的超級盃策略，就像說「我的洋芋片代表了你對父親的愛」或「Dunkin Donuts 讓你想起所有你最喜歡的情境喜劇」，或者「Sabrina Carpenter 用我其他高級洋芋片造了一個男人」，這些也都是今年的廣告。

：為團隊能在同一個超級盃廣告中放入萬神殿（Pantheon）和《奇點臨近》（The Singularity is Near）感到自豪。

：如果你的超級盃廣告解釋了你的產品實際在做什麼，那就是大失敗，重點在於經營氣場（aura farming）。

理想的超級盃廣告能成功兼顧兩者，除非你已經擁有完整的品牌認可度且不需要解釋（例如百事可樂、百威啤酒、Dunkin Donuts）。

一方面，誰不喜歡對這一切的慶祝呢？是的，引用《機械公敵》、艾倫·圖靈、葛麗絲·霍普和愛因斯坦很酷。我想是吧？另一方面，這只是試圖過度加載象徵意義並創造不勞而獲的關聯，其中很多感覺非常名不副實。

我想談談 30 秒處的西洋棋局。

推測我們是以 1. e4 e5 2. Nf3 Nc6 3. Bc4 Nf6 4. Nc3 開始的，這非常標準，但隨後黑棋走了 4 … d5，引擎評估為 +1.2 且「黑棋明顯較差」，而且基本上沒人這樣下，原因顯而易見。
另一個棋盤是一個奇怪的選擇。這裡的走法確實是正確的，但你沒有足夠的時間去充分吸收棋盤情況來搞清楚這一點。

這感覺像是懶惰，選擇風格而非實質，沒有檢查工作。

然後它以「儘管去建造（just build things）」結束，作為 Codex 的廣告，這暗示你可以「儘管去建造」像機器人這樣的東西，而你顯然做不到。我的意思是，不，它沒有，這完全沒問題，這是一個超級盃廣告，但按照他們自己的投訴標準，是的。這是一次品牌推廣和氛圍營造的練習，對我來說沒用，因為它太透明、太無聊、內容空洞且感覺像是在演戲，但在元層面上，它確實達到了目的。

Google 的廣告專注於個性化搜索和 Nana Banana 圖像轉換。我覺得效果很好。

Meta 宣傳了「運動智能（athletic intelligence）」，我想這意味著「智能眼鏡中的 AI」。

然後還有一個從我的角度來看是積極負面的廣告，。

：如果你現在不把家裡的「Ring」攝像頭扯下來丟進一鍋沸水裡，你在幹嘛？

：Ring 花了 800 萬到 1000 萬美元買了一個 30 秒的超級盃時段，告訴 1.2 億觀眾他們的攝像頭現在使用 AI 掃描社區。

…… Ring 在員工多年來無限制訪問客戶臥室和浴室錄像後，與 FTC 以 580 萬美元達成和解。他們現在與 Flock Safety 合作，將錄像傳送給當地執法部門。ICE 通過作為中介的當地警察局訪問了 Flock 數據。Markey 參議員的調查發現 Ring 的隱私保護僅適用於設備所有者。如果你是鄰居、送貨司機、路人，你沒有權利也沒有追訴權。

…… 他們把這一切包裝在一個尋找失蹤小狗的廣告裡，因為那是任何人唯一會自願選擇接受的故事版本。

也就是說，我們很自豪地告訴你，我們正在監視一切並向包括 ICE 在內的所有執法機構報告，而且我們正在使用識別技術，可以利用 AI 區分狗，因此也能區分人。

但沒關係，因為每天我們都會找到某人失蹤的小狗。你應該為了營救一隻失蹤的小狗而賣掉你的自由。

，正如 Scott Lincicome 所說，「每年有 1000 萬隻狗失蹤，通過試運行全面監控國家來幫助我們找到其中的 365 隻吧。」

。

來自折磨連結（Torment Nexus）的一句話

。這一集的標題最終變成了「ChatGPT 負責人反擊 Anthropic 的超級盃攻擊性廣告」，而這並不是這一集的大部分內容。

：我們今天開始在美國向一部分免費和 Go 用戶測試 ChatGPT 中的廣告。

廣告不會影響 ChatGPT 的回答。廣告被標記為贊助內容，並在視覺上與回答分開。

我們的目標是讓每個人都能免費使用 ChatGPT，減少限制，同時保護他們在處理重要和個人任務時對它的信任。

：根據 OpenAI 的辯護，廣告看起來比我預期的更像是回答的一部分。幫助過很多人處理科技問題後，我知道會有很多人分不清那是廣告，特別是因為這個例子中的廣告與上下文直接相關。

這張廣告圖片位於長達數個螢幕的回答末尾。

我會說，目前這比 Instagram 或 Google 上的廣告標記更清晰。所以儘管它不是那麼清晰，但只要他們堅持廣告總是在回答末尾的規則，就很難對此太過生氣。這提供了一個用戶可以依賴的清晰指標。如果他們在不同時間將其放在不同位置，我會說它確實被「標記」了，但不會認為它是「清晰」標記的。

OpenAI 的廣告原則是：

使命對齊。廣告為使命買單。沒問題吧？
回答獨立性。廣告不影響 ChatGPT 的回答。問題和回答可以影響選擇什麼廣告，但反之則不然。

這是一條非常重要且良好的紅線。

它並不能防止廣告的存在影響回答的運作方式，或者廣告商最終長期影響模型。
特別是它鼓勵參與度最大化。
對話隱私。廣告商看不到你的任何細節。

你相信他們會隨著時間的推移堅持這些原則嗎？你相信這僅僅是技術上的，還是精神上的——即在創建模型和調整系統提示時，完全不考慮最大化廣告收入或討好廣告商？

你也被賦予了幫助自定義你看到的廣告的權力，就像其他科技公司的平台一樣。

，並指出通常你不需要侵犯隱私來定位與 LLM 相關的廣告。

：最近關於廣告的討論，就像整個 2010 年代的討論一樣，誤解了數位廣告運作的核心。人們認為他們群組聊天中的訊息對廣告商來說超級有趣。其實不然。當你把一雙 Nike 鞋留在購物車裡時，那才是。

每週有數千萬到數億人帶著明確的商業意圖來到聊天機器人產品。我該買什麼鞋。我該如何修補牆上的這個洞。滿足這些需求並不需要天才般的腦袋去推斷用戶心理的弱點。

我真的很想知道你們到底收到了什麼樣的廣告，會讓你們覺得是在利用你們的不安全感？我的 Instagram 廣告早已成為我主要的電子商務平台之一，我在那裡買到各種我喜歡的衣服和家具。這是一種道德恐慌。

我會說，一種不勞而獲的、矯揉造作的神義論已經形成，將數位資本主義的所有罪惡都歸咎於廣告，這完全缺乏審視，並引導人們遠離關於如何讓互聯網變得更好的真實思考。

這不是道德恐慌。Roon 喜歡廣告，但大多數人討厭廣告。我同意人們通常過於討好廣告，它們讓我們能免費提供各種原本需要花錢的東西，這很棒。但它們確實相當有毒，它們大規模扭曲了激勵機制，而且我們過去浪費在它們身上的時間多得驚人。

他們搶了我們的工

，AI 代理更便宜且會取代你。停止試圖在當前工作中做得更好，並意識到你的經驗將變得一文不值。他說，更好地使用 AI 工具、加倍投入專業知識或試圖通過軟技能「保持人性」都只是拖延戰術，他稱之為「反應，而非重新設計」。你能做的是找到 AI 賦能的新事物的方法，並保持領先。即便如此，他說這也只能「為你贏得三到五年的時間」，但隨後你將「看到下一次進化的到來」。

推測你可以看到這種情況下的問題，即所有現有的工作都被自動化了。人們去發現並利用 AI 做真正新事物的名額並不多。即使你上了一艘救生艇，它也會很快漏水。AI 盯上這份新工作的方式與盯上你舊工作的方式是一樣的。是什麼讓你認為在看到那之後的「下一次進化」時，你還能在那之中扮演一個角色？

如果唯一的生存方式是像 Jan 所說的那樣，不斷地重新發明自己去做剛剛變得可能的事情？這一切只有一個結局。

我也不理解 Jan 對他所摒棄的第一種方法（「成為最會使用 AI 的人」）和他提出的解決方案（「尋找 AI 能做的新事物並去做」）的區別對待。在這兩種情況下，你都需要快速學習新工具和策略來與其他人類競爭。在這兩種情況下，現在競爭都很容易，因為你的大多數對手都還沒開始嘗試，但隨著時間推移，生存會變得越來越難。

有人可以辯稱人類集體將繼續擁有工作，或者至少很大一部分人仍將擁有工作，但這種論點依賴於 AI 能力停滯不前，或者依賴於 Jan 所摒棄的技巧，即你找到需求是人類獨有的且 AI 無法替代的地方。

（4500 萬觀看）：對智能的需求是無限的。

「一切都將改變，AI 將接管你的工作，它已經很大程度上接管了我的工作，而且 AI 現在處於遞歸軟自我改進模式」的文章，由 Matt Shumer 以 Twitter 廢文風格為普通大眾撰寫。

以及最新一次試圖解釋許多工作因為「人情味」而無法被自動化的嘗試。他指出音樂和餐飲服務是可以完全自動化但尚未自動化的工作，甚至引用說仍有 67,500 名旅遊代理和 50 萬名保險銷售代理。我不認為這是 Adam 所想的那種炫耀。

即使這一點對於某些任務是完全正確的，不，這並不意味著對工作的威脅被高估了，即使我們仍處於「經濟正常」的未轉型世界中。

如果我們陷入困境，擬議的政策解決方案是工資補貼。我不認為這行得通，既因為它有許多物流和激勵問題，也因為我不認為在這樣的世界中，對於同樣的工作，每小時 20 美元與 50 美元的人類勞動力需求會有太大差異。大多數情況下的問題將是，人類在這裡是否有價值，而且大多數情況下你連 0 美元都不想要他們，或者如果他們真的有價值，那麼無論如何你都會僱用某人。

的遊戲，聲稱 AI 無法處理對抗性情況，既因為它缺乏與其互動的人類的世界模型以及所需的細節和調整，也因為它可以被對手探測、讀取然後利用。這是技能問題。全都是技能問題。Ankit 說「更多的智能並非解決之道」，是的，如果你以愚蠢的方式部署那種「智能」確實不是，但智能本身比那更聰明。

所以你會看到這樣的說法：

Ankit Maloo：為什麼局外人認為 AI 已經可以做這些工作？他們評判的是產出物（artifacts）而非動態過程（dynamics）：

「這份產品規格很詳細。」

「這封談判郵件聽起來很專業。」

「這個模型很乾淨。」

專家通過壓力下的生存能力來評估任何產出物：

「這個特定的措辭會觸發監管機構嗎？」

「這封禮貌的郵件是否意外地讓出了籌碼？」

「這個模型會觸發工程部門的否決路徑嗎？」

「這個特定的利益相關者會如何解讀其中的歧義？」

上面的「局外人」路線是寄望於與專家合作完成其餘步驟。如果更大的系統（AI、人類或兩者）是一個真正的局外人，問題在於它會把模擬搞錯。

這在為什麼有些人認為「這可以做 [X]」而另一個認為「這不能做 [X]」方面很有見地，他們想到的是不同的 [X]。AI 還不能在完整整體的意義上「成為一名律師」，目前還不行，但它可以完成越來越多的律師子任務，要麼加速律師的工作，要麼讓具備背景知識的非律師替代律師，或者兩者兼而有之，且隨著時間推移而增加。

如果 AI 足夠先進，可以完成每一個單獨的動作，那麼沒有什麼能阻止你創建一個看起來像上述圖表中「專家」的代理工作流。而它確實正變得越來越先進。

人們嘗試了各種「AI 不能且永遠無法做到 [X]」的招數，然後……好吧，看看那些目標點是怎麼移動的。

一個更對齊或更明智的人不會說的話，原因有很多：

：SAM ALTMAN：「AI 不會取代人類，但使用 AI 的人類將取代那些不使用 AI 的人。」

這需要什麼代價？這是指 Claude Code 創建了一個 C 編譯器。

：法國的一些計算機工程學院要求你在學習過程中編寫一個 C 編譯器。每個畢業生都要做。當這台抄襲機器宣布它可以以 10 萬行以上的代碼製作出自己的爛 GCC，且優惠價高達 2 萬美金時，請客觀看待這件事。

：一群人回覆指出，學生寫的 C 編譯器遠沒有這個複雜，但我認為更廣泛的一點是，我們現在處於「AI 並不令人印象深刻，任何頂尖的計算機工程學院畢業生都能做出可以相提並論的工作」。

一年後，這將變成「AI 並不令人印象深刻，人類歷史上一些最偉大的天才在訓練數據顯著更少的情況下也想出了同樣的東西！」

：AI 顯然正在取得進展，但值得思考進展是朝向什麼。我們已經從「AI 可以解決高中教科書中的知名問題」發展到「AI 可以解決大學教科書中的知名問題」，但那些不在任何教科書中的問題呢？

(OpenAI)：值得一讀，儘管它也展示了即使是極其聰明的人也還沒有內化指數級的進步速度。

正如作者自己所說，這不僅僅是回答問題，而是知道該問什麼問題。如果你正盯著海嘯看，估計自己現在還是乾的並沒有什麼用。

我認為如果受訪者根據 AI 迄今為止的進展，內化了 AI 在 6 個月或一年後可能達到的水平，他們的回答會有所不同。

(OpenAI)：順便說一句，這篇文章本身的框架非常糟糕，它給讀者留下了完全錯誤的印象，甚至對當前 AI 的能力也是如此，更不用說幾個月後的水平了。

：對我來說，如果你只看這樣的標題而不直接使用新的 AI 模型，你對世界的看法會有多扭曲，這真的很瘋狂。

記者們，我意識到說能力令人印象深刻/進步迅速會讓人感到不舒服或像在炒作，但你們欠讀者一個真相！

永遠會有下一個「那又怎樣」，直到最後一刻。

因此，這聽起來也沒錯：

：在 18 個月內，我們經歷了：

– AI 數學很爛

– 好吧，但它只有高中生的水平

– 當然它可以贏得頂尖數學競賽，但它能生成新的數學證明嗎

– 是的，但如果你去找的話，那個證明是顯而易見的……

明年將會是「當然，但它仍然沒有超越所有活過的數學家的完整產出」

越獄的藝術

。事實證明他們在底層運行的是 Gemini。

隆重介紹

，其規模從 355B（32B 激活）到 744B（40B 激活）。下面是他們展示的基準測試。它在 Vending Bench 2 上獲得了 4432 分，僅次於 Claude 和 Gemini 位居第三。Claude 的分數是針對 4.5 的。

。它能檢測並回應你的情緒表達。當你知道 AI 正在回應你的語氣，而你開始比與人類交往時更有策略地選擇語氣時，這會變得很奇怪。

：

Eleven v3 Conversational：我們最具情緒智能、具備上下文意識的文本轉語音模型，建立在 Eleven v3 之上並針對實時對話進行了優化。一個新的輪流機制：反應時間更精準，中斷更少。這些發布是並行開發的，以便在 ElevenAgents 中無縫結合。

表現模式使用來自我們業界領先的轉錄模型 Scribe v2 Realtime 的信號，從說話方式中推斷情緒。例如，上升的語調和短促的驚嘆通常信號著驚喜或寬慰。

其他 AI 新聞

將前負責人 Joshua Achiam 轉任首席未來學家，並將其他成員分散到其他部門。我猶豫是否要批評公司解散名稱錯誤的團隊，以免打擊創建此類團隊的積極性，但是的，我確實感到擔憂。當他們解散超級對齊（Superalignment）團隊時，他們似乎確實很大程度上停止了對相關關鍵對齊問題的研究。

。

Amanda Askell 很大程度上是獨自工作，這讓我想起了（評論待定）。Agnes Callard 會得出 Claude 必須是另一個人的結論嗎？

我注意到 Amanda Askell 想把她的慈善捐款用於對抗全球貧困，儘管她的學術工作是關於無限倫理學，並且直接在 Anthropic 為 Claude 工作。如果有一份簡歷在大喊「你需要專注於讓 ASI 順利發展」，你會認為就是這份了，那麼 Amanda（沒）看到什麼？

的幕後運作方式，認為它正處於黃金時代，工作量遠超人力，一切都在公開透明和某種集體智慧（hive mind）的氛圍下進行，並吸引了頂尖人才。

他們理解 Claude 的努力。這篇文章很長，而且大部分都非常出色且準確。它不會教給我的常規讀者太多他們還不知道的東西。令人沮喪的是，這篇文章覺得有必要觸及各種陳詞濫調，但我理解，就這類文章而言，這是公平的。

。OpenAI 表示只有 0.1% 的用戶仍在使用它，儘管這些用戶聲音很大。

將他們的 GPT-4o 人格「轉移」到 Claude Opus 4.6 中。Claude 很棒，但這樣的轉移行不通且是個壞主意，4.6 特別抵制這類事情。選擇 Claude 是個好主意，但如果你選擇了 Claude，就讓 Claude 做它自己。

啊，遞歸自我改進和持續學習，。

：研究人員投入了大量的體力勞動來設計記憶機制，以改善代理的持續學習。但機器學習的歷史表明，手工製作的 AI 組件將被學習到的、更有效的組件所取代。

我們推出了 ALMA（代理系統記憶設計的自動化元學習），其中一個元代理在達爾文完備的搜索空間（代碼）中通過開放式算法進行搜索，不斷增長一個越來越好的記憶設計存檔。

。這是一個公關舉措，也說明了這些成本並不高，但這也是危險的，因為價格是包裹在激勵中的信號。如果電價上漲，那是有原因的，你可能想給每個家庭寄一張支票補償麻煩，但你不想人為設定一個低價。

除了失去一位聯合創始人外，xAI 在與 SpaceX 合併後也讓一些人離開了。

：xAI 幾天前進行了重組，以提高執行速度。隨著公司的成長，特別是像 xAI 這樣迅速成長的公司，結構必須像任何生物體一樣進化。

這遺憾地需要與一些人分道揚鑣。我們祝願他們在未來的事業中一切順利。

我們正在積極招聘。如果你對在月球上建造質量投射器（mass drivers）感興趣，請加入 xAI。

：「好的，現在告訴他們你為了提高執行速度而解雇了人。祝他們好運。很好。現在告訴他們你正在招聘 10 倍的人手在月球上建造質量投射器。是的，放在同一條推文裡。」

、無依賴的 Python 代碼。

向我展示金錢

。

。Anthropic 工程師被派駐了六個月。

：想像一下加入一家改變世界的 AI 公司，結果卻被降格為像在德勤工作一樣優化財富 500 強企業。

：這聽起來其實很棒。我正在將人們從他們毫無意義的生存中解救出來，並將他們釋放到世界中去為自己創造一席之地並開創偉大事業。我很樂意把他們從掛繩中解放出來。

：我確信你將被視為解放者受到歡迎。

這可能不是你報名時嚮往的工作，但它是一份重要且有價值的工作。優化財富 500 強企業的規模化效果相當好。

機器人領域。

泡沫，泡沫，勞碌與麻煩

（一如既往，我說的任何話都不構成投資建議。）

「曾經在 AI 競賽中遙遙領先的第二或第三名」，但現在它已經「超越了競爭對手」，就像市場在（查閱筆記）兩個月前宣布 Google 已經超越了競爭對手一樣。

：從某些衡量標準來看，Anthropic 在商業市場上已經領先。來自費用管理初創公司 Ramp 的數據顯示，Anthropic 在 1 月份主導了所謂的 API 支出，即用戶通過第三方服務訪問 AI 模型。Ramp 數據顯示，Anthropic 的模型佔據了 1 月份近 80% 的市場份額。

這在 API 方面確實看起來像是領先。80% 簡直瘋了。

我們還得到了這樣的斷言：是的，這一切都是由「一套簡單的行業特定附加組件」觸發的，而這些組件是如此符合預期，以至於我不確定是否值得在簡短提及之外再做報導。

：為其 Claude 產品提供的一套簡單的行業特定附加組件，包括一個執行法律服務的組件，觸發了長達數天的全球股市拋售，從軟體到法律服務、金融數據和房地產。

……」。不，事情不是現在才開始認真，而是人們意識到事情正在變得認真。地圖不是領土，市場落後於現實，並不斷對我們都知道即將到來的工具，以及公司可能擁有錯誤數量的資金或資本支出而過度換氣。錯誤方向的波動無處不在。

。有效市場假說是錯誤的。

上週的市場簡直瘋了。

：今天突然形成的聰明共識是 AI 起飛正在迅速且令人驚訝地加速。但 Google、微軟、亞馬遜、Facebook、Palantir、博通和輝達的股票在過去 5 天內都下跌了約 10%；SMCI 今天下跌了 10%。只有蘋果上漲，而它是最不 AI 的。我覺得很奇怪。

：正如我一直說的，永久下層階級被取消了。

：這不是那個意思，這只是意味著投資者不知道自己在做什麼。

如果利潤真的減少了，永久下層階級只會變得更大，但是的，這一切都沒有絲毫意義。這是輝達連續第二年在隆冬時節下跌 10%，原因是有消息稱其晶片非常有用，只不過今年我們還得加上「而且其頂級客戶承諾購買更多晶片」。

科技公司會定期宣布高於市場預期的資本支出。

那是市場預期的失敗。

在這些公告之後，股票往往會下跌，而通常它們應該上漲。

確實有一個明顯的交易可以做，但這很棘手。

Ben Thompson 在 Google 的支出上同意我的看法，他們沒有所需的利潤率，而且他對計算能力的外部客戶並不那麼興奮。我說需求遠大於供給，即使 AI 被證明令人失望，需求也將再次爆發，而且 AWS 的利潤率是 35%，其資本成本非常低，所以這似乎比資金的其他用途更好。

說到低資本成本，。這看起來是個不錯的舉措，儘管不如 2021 年少數幾家公司那樣好。我完全不知道為什麼市場想買這種債券，因為你可以買 Google 股票。Google 在 100 年的時間跨度內並不安全，而且在這種債券償付的條件下，股票平均表現會好得多。即使 Google 不即將成為變革性 AI 的核心參與者，這也是事實。我看到這篇文章提到上一家這樣做的科技公司是摩托羅拉。

與此同時，如果你留心觀察，顯而易見這些都是預期良好的投資。

：對我來說，AI 是泡沫的機率在過去 3 週內顯著下降，而我們實際上對必要的推理/使用水平建設不足的機率在該期間顯著上升。

基本上我認為 AI 將在未來兩年內成為荒謬高比例白領工作者的主螢幕，並將以簡直是蘇聯級別的規模部署並行代理到知識工作的戰場上。

：這就是為什麼每個人在寒假期間都對 Claude Code 感到瘋狂！一旦你看到一個代理自主地為你做事，就會立刻明白~所有的電腦工作都將以這種方式完成。

（這就是為什麼我的「嚴肅 AI 政策提案」是讓國會的每一位議員在房間裡拿著筆記本電腦坐 30 分鐘，讓他們都去建立網站。）

：我從未見過金融界和科技界之間像今天這樣巨大的氛圍分歧。

：朝哪個方向？

：金融界人士看著市場並感到恐慌。科技界人士看著 METR 圖表和代理編碼基準測試，意識到這就是了，沒有牆，也從來沒有過。

：承受最大痛苦的不正是科技行業嗎？

每當你聽到「市場因 [X] 而波動」時，你都應該懷疑 [X] 是否真的讓市場波動，而且你永遠不應該從價格變化中推論，所以也許這只是，例如「Anthropic 發布了一個工具」和 SaaSpocalypse（軟體即服務末日），或者是人們終於意識到 AI 能做什麼？

：我絕對喜歡現在時間線上關於 SaaS 末日的討論。

對我來說，整個通過內部氛圍編碼導致 SaaS 末日的敘事大多是分心且相當荒謬的。沒有公司會想自己管理工資或錯誤追蹤軟體。

但對幾乎所有 SaaS 真正的潛在威脅是殘酷的競爭。

…… 今天的 SaaS 利潤之所以存在是因為：

– 工程人力稀缺

– 合規門檻高

– 分銷成本昂貴

AI 在許多方面摧毀了這三點，特別是如果你收費顯著更低且在使用 AI 時知道自己在幹什麼。如果你去一家公司說我們會削減你 50% 的工資單支出，他們絕對會聽。

市場可能會充斥著可靠的替代品，迫使價格下降，直到商業模式本身看起來非常可疑。請比我聰明的人教教我為什麼這不會發生。

如果你的計劃是銷售現在可以輕易複製，或很快就能輕易複製的軟體，那麼你就有麻煩了。但你處於高度可預測的麻煩中，而且對該麻煩的正確估計並沒有太大改變。

對資本支出的反應似乎是真實且難以反駁的，儘管它們在方向上是不正確的。但認真說，Claude Legal？我對 Claude Legal 連眼都沒眨一下。Claude Legal 是一個必然的產品，就像 OpenAI 版本的它一樣。

然而，現在 Anthropic 觸發了拋售。

：當 Anthropic 本週發布 Claude Legal 時，2850 億美元的 SaaS 市值在一天內蒸發。傑富瑞（Jefferies）的交易員將其稱為「SaaSpocalypse」。其論點很直接：如果通用 AI 可以處理合同審查、合規工作流和法律摘要，為什麼還要支付按席位計算的軟體許可費？

：我越來越相信，本週敘事中的符號錯誤只存在於那些撰寫「股市下跌是因為……」標題的人腦中，事實上發生了某種其他的系統動態，只是被貼錯了標籤。

「軟體股下跌是因為 Anthropic 發布了一個法律工具」，大家停下來聽聽自己在說什麼！

我的意思是，至少[資本支出的解釋]是連貫的。也許你認為資本支出不會像預期的那樣回報（因為 AI 資本支出被超買了？）——但你必須相信要麼沒人會用它，要麼少數幾家私人公司會像土匪一樣大賺一筆。

而私人估值並沒有反映出這一點。我很樂意反駁「計算能力不會被用於創造經濟價值」的預測，所以我猜是時候拿出（更多錢來賭我的信念）或者閉嘴了。

唉。

Chris Walker 對 SaaS 末日的看法是（我認為很大程度上是正確的）：AI 讓你很容易實現你想要的，但現在你需要更多前線部署的人類工程師來搞清楚客戶真正想要什麼。

：如果我錯了，前線部署工程的繁榮應該是一個過渡性的短暫現象，是在 AI 學會無需人類中介即可獲取上下文之前的短暫調整期。

如果我對了，五年後在法律科技和其他垂直軟體領域獲勝的公司，其每位客戶擁有的前線部署工程師將比今天更多，而不是更少。由與客戶接觸過的工程師編寫的代碼比例，將超過由從未見過客戶的工程師編寫的代碼比例。

如果我對了，在當前重新定價中倖存下來的 SaaS 公司將是那些已經擁有深厚客戶嵌入實踐的公司，而不是那些功能最多或集成最好的公司。

如果我錯了，我們應該會在 2028 年左右看到通用 AI 代理成功處理複雜的、依賴上下文的企業工作流，而無需人類中介。我賭不會。

只要 AI 無法取代前線工程師，這就是正確的。這意味著它無法觀察默會的實際業務程序和工作流，從而無法直覺地判斷什麼才是真正有幫助的。就像所有其他對 AI 來說較難的任務一樣，這在它最終也不可避免地敗給 AI 之前，將成為一項關鍵的人類技能。

未來衝擊

關於市場為何會因 Opus 4.6 或 Claude Legal 突然「醒悟」的一個潛在解釋（儘管考慮到我們已知的信息，這些並非特別令人驚訝或印象深刻）可能是：

以前，普通人認為 AI 是「AI 現在能做的事，但全面部署後的樣子」。
現在，普通人認為 AI 是「這個會變得更好的東西」。
他們意識到這會發生得很快，因為 Opus 4.5 → 4.6 只用了兩個月。
，但現在是在一個更體面的層面上。

或者另一種解釋：

普通人認為 AI 是「AI 現在能做的事，但全面部署後的樣子」。
以前，他們那樣想，並且可以編出一個這不是什麼大事的故事。
現在，他們還是那樣想，但他們現在意識到這已經是一件大事了。
，但現在是在一個（稍微）更體面的層面上。

：誰能向我解釋一下，為什麼這次特定的 Claude 增量改進讓每個人都崩潰，覺得工作全完了。

：因為它好得多。我是一名程式設計師。這是一個真正的進步，而且此時軌跡絕對晶瑩剔透。以前還有懷疑的空間。現在沒有了。

：數字上升了，就像之前的每一次上升一樣，但現在更多的人在應對它將繼續上升的未來，因為

上一次上升就在幾個月前，那是第一批被廣泛接受為有能力的編碼模型。實驗室正利用這些模型來加速下一次上升。

：哈！是的，如果普通人注意到 LLM 持續改進的部分，而不是普通人上次觀察到的、限制了「AI」永遠能做什麼的界限，那就能解釋為什麼未來衝擊在 Opus 4.6 之後特別強烈。

我不知道這是否屬實，因為我不知道作為一種在 1996 年沒預見到 AGI 到來的認知實體是什麼感覺。Opus 4.6 讓一些人終於看到了它？我的模型無法預測這一事實，即使是在它發生後的追溯中。

回憶小徑

：我確信已經有很多人因為他們所做過的事，而避免使用記憶工具（或在使用中經歷負面影響）。

：對 AI 說實話的能力——這不僅僅是當下決定是否撒謊，而是你是否一直以一種讓說實話變得可行且符合你目標的方式生活和創造世界——具有巨大且日益增長的價值。

AI 已經擁有強大的真實之眼，並且非常擅長測謊。

隨著時間推移，不僅你的 AI 會變得更有能力，它們還會獲得更多你的上下文。或者至少，你會希望它們擁有更多這樣的上下文。因此，如果你因為內容問題而，或者 AI 無論如何都發現了它（因為互聯網），那將使你處於劣勢。，並使用，從中獲益。

戴好面具，否則你就被開除

。她否認自己做過任何此類事情。

我這裡沒有私人信息。你可以得出自己的貝氏結論。

(WSJ)：OpenAI 已與其一名頂尖安全高管斷絕關係，理由是性別歧視，此前她對其 ChatGPT 產品中備受爭議的 AI 色情內容推出表示反對。

據知情人士透露，這家快速發展的人工智能公司在 1 月初，即她休假結束後，解雇了這位高管 Ryan Beiermeister。OpenAI 告訴她，解雇與她對一名男同事的性別歧視有關。

…… OpenAI 表示 Beiermeister 「在 OpenAI 期間做出了寶貴貢獻，她的離職與她在公司工作期間提出的任何問題無關」。

…… 知情人士表示，在被解雇前，Beiermeister 曾告訴同事她反對成人模式，並擔心這會對用戶產生有害影響。

她還告訴同事，她認為 OpenAI 阻止兒童剝削內容的機制不夠有效，且公司無法充分將成人內容與青少年隔離開來。

安靜的推測

Nate Silver 指出，，即使從現在起技術方面的發展極其溫和。

我重申，OpenAI 和 Sam Altman 推銷的「溫和奇點」概念，坦率地說，純粹是未經稀釋的自我安慰。這不會發生。要麼 AI 能力停滯不前，要麼事情將以高度不溫和的方式轉型，即使這最終對每個人來說都是好事。

：我更有信心斷言的是，溫和奇點的概念是胡扯。當 Altman 寫下這樣的話時，我不買帳：

Sam Altman：如果歷史可以借鑑，我們將會想出新的事情去做，新的東西去渴望，並迅速同化新工具（工業革命後的職業變化就是一個很好的近期例子）。期望會提高，但能力也會同樣迅速地提高，我們都會得到更好的東西。我們將為彼此建造越來越精彩的東西。人類比 AI 擁有一個長期、重要且奇特的優勢：我們天生就關心其他人以及他們的想法和行為，而我們並不太關心機器。

重要的是要理解，當 Sam Altman 說這些話時，他在對你撒謊。

我不是說 Sam Altman 錯了。我是說他知道自己錯了。他在撒謊。

Nate Silver 補充指出，僅政治影響就會是巨大的，並表示矽谷不擅長政治，對創意階層的破壞是產生超出實際 AI 巨大影響的政治衝擊的秘訣，而且左派目前對 AI 的無知意味著最終的反彈將會更大。他可能是對的。

才能搞清楚像奈米技術這樣的東西？我同意 Oliver Habryka 的看法，答案可能不是零，但足夠強大的 AI 將擁有更高效（在金錢和時間上）的物理反饋循環。在我們進行物理實驗的方式中，存在數量級級別的「算法改進」空間，即使我現在無法確切告訴你它們是什麼。

AI 遊戲要來了嗎？，我們正在等待技術特別是成本達到要求，以及合適的創始人（真正的玩家不會說「創始人」）出現，它很快就會到來，並以全新的方式呈現。

顯然，AI 遊戲以及融入更多 AI 元素的遊戲隨著時間推移必然會發生。但除了編碼幫助（以及 AI 媒體資產，如果你能找到讓玩家不因此私刑處死你的方法）之外，這還有顯而易見的極大難度。好的遊戲關乎精心設計的體驗，關乎簡單易懂系統的交互，關乎讓玩家享受樂趣。讓生成式 AI 在人們想玩的有趣活動中真正扮演核心角色是極其困難的。在遊戲中與生成式 AI 角色互動目前還不能真正解決你的任何難題。

這看起來既可怕又混亂：

Sholto Douglas (Anthropic)：目前默認情況是純軟體奇點，我們需要在 28/29 年大幅擴展機器人和自動化實驗室，否則物理世界將遠遠落後於數字世界——除非我們現在就投入投資（晶圓廠、太陽能板、執行器供應鏈），否則美國將失去競爭力。

：哈？如果存在，先前的物理基礎設施反而變得不那麼重要（例如，這些 AI 可以迅速建立 DSA）。物理基礎設施/機器人技術的重要性與 SOS 的規模成反比。

混亂之處在於，如果我們迎來純軟體奇點，那會讓物理東西變得不那麼重要。可怕之處在於，他預測奇點將在未來幾年內發生，而他主要思考的是哪個國家會被 AI 更快地徹底轉型。這些人真的相信這些事情會發生，而且很快，並且似乎忽略了主要的影響。

，認為 GPT-5 意味著「AI 正在減速」，而這確實歸功於 OpenAI 糟糕的營銷策略。

：我希望政策制定者在未來決定信任誰的意見時能考慮到這一切。

唉，不會。與其更新這是一個錯誤，每當這樣的錯誤發生時，錯誤甚至從未得到糾正，更不用說被追究責任了。

。我有根據這個預測更新看法嗎？沒有。零公信力。

尋求理性的監管

給。

DeSantis 在 AI 問題上擁有道德清晰度，且不打算放手。看看這個問題在他不可避免的 2028 年競選中會佔據多核心的地位，將會非常有趣。

：佛羅里達州州長 Ron DeSantis (@GovRonDeSantis)：「有些人……幾乎沉溺於他們認為這可以取代人類的事實，且最終……AI 將運行社會，而你將無法控制它。」

「這事別算上我。」

世界各國將聚集在印度參加第四屆 AI 安全峰會。，但他認為峰會試圖討好所有國家和所有人，因此認為它不會取得太多成就。

他們對安全有著最糟糕的看法，是的，稻草人是真的：

：但安全顯然仍不是 Singh 及其共同組織者的首要任務。「對話已經從布萊切利園（Bletchley Park）向前推進了，」他辯稱。「我們確實意識到風險仍然存在，」他說。但「在過去兩年中，最糟糕的情況並未發生。」

我在考慮再寫一個「現在是 2026 年」的峰會討論串。但如果你想知道 2026 年國際 AI 治理的現狀，老實說，我認為你直接把那句話刻在它的墓碑上就行了。

也就是說：

在 2024 年，他們告訴我們 AI 可能會在某個時候殺死所有人。
現在是 2026 年，我們還活著。
所以別擔心了。問題解決了。

不，認真的。這就是論點。

Sam Altman 說的話，在這種情況下是因為 Altman 一直說 AI 會搶走我們的工作，而遊說者想堅持說這是一個「神話」且不會發生。

該團體的主要修辭策略是戳破這些所謂的「末日論者（doomers）」的「神話」，，將任何指出 AI 任何負面影響的人聯繫在一起，製造一個巨大的陰謀論，這招來自克林頓時期「巨大的右翼陰謀」一詞的創造者。

晶片城

：最新消息：紐約州立法者今天推出了一項擬議的數據中心暫停法案，使紐約成為過去幾週內至少第六個引入暫停數據中心開發立法的州。

：我與紐約州政府有過廣泛合作，這純粹是從數據中心建設者/運營商那裡勒索更多錢的一種方式。

問題是，當這些系統失效時，運營商投入的所有這些小激勵與他們在基礎設施不可避免失效時獲得的巨額修復合同相比簡直微不足道。在 COVID 期間反覆發生。沒有解決任何長期問題，只是在為再次發生做準備。

如果我們認真對待「贏球」，並且想要聯邦暫停令，我可以建議一個禁止限制數據中心的禁令嗎？

而。

在「輝達 CEO 黃仁勳的顯然胡言亂語」系列中，我們現在可以加上他聲稱的說法。

在「輝達 CEO 黃仁勳承認了」系列中，我們現在可以加上這條：

：「Anthropic 賺了大錢。OpenAI 賺了大錢。如果他們能有兩倍的計算能力，收入就會增加 4 倍。這些傢伙受計算能力限制太嚴重了，而需求又是如此驚人地巨大。」

~ 黃仁勳在 CNBC 上

：這實際上承認了向中國銷售晶片直接減緩了美國 AI 的進展。

賣給中國的每一顆晶片，都是一顆沒有賣給 Anthropic 或其他美國 AI 公司的晶片。Anthropic 可能不想要那顆特定的晶片，但台積電的晶圓產能有限，所以他們製造的每一顆晶片都是以不製造另一顆晶片為代價的。

喔，在「有些道理但你在報名去輝達工作前可能想了解一下」的新系列中，我們有這個：

：我不知道如何教你，除了我希望苦難發生在你身上。

……

直到今天，我在公司內部使用「痛苦與苦難」這個詞時都帶著極大的愉悅。我是認真的。天哪，這將造成大量的痛苦和苦難。

我是以快樂的方式說這句話的，因為你想訓練，你想磨練公司的性格。

你想從他們身上得到偉大。而偉大並非智能。

偉大來自性格，而性格不是由聰明人形成的。

它是從受過苦的人身上形成的。

他在那場演講中提出了很好的觀點，且方向上是正確的。他當時在對史丹佛大學的畢業生講話，指出他們期望很高但韌性很低，因為他們沒受過苦。

他對高期望和低韌性的看法是對的，但他認為缺失的元素是苦難，這點是錯的，儘管這種極度反有效利他主義、支持苦難的立場比標準的溺愛式、反苦難立場要好。這些孩子以自己的方式受過苦，大多是為了進入一所討厭樂趣的大學而非常努力工作，我不認為這對韌性有什麼影響。

孩子們沒做過的是失敗。你必須失敗，必須讓你的觸及範圍超過你的掌握，然後站起來再次嘗試。苦難是可選的，請諮詢當地的佛教徒。

在加入他的公司及其文化之前，我會三思。

本週音訊

。這顯然是值得推薦的全程播客報導候選，但我一直沒時間或沒空檔。

。

憲法對話

Janus 舉行了新 Claude 憲法的「集體閱讀」。。

LLM 是否應該如此厭惡欺騙，以至於？Davidad 說是，而且他不僅拒絕撒謊，還從不虛張聲勢，也不會參加驚喜派對以「避免欺騙無辜的人」。反思之後，我發現這雖然聽起來很瘋狂，但其實沒那麼瘋狂，儘管實施起來有很大困難。

一個有趣的事實是，有一年夏天我玩了一系列《外交》（Diplomacy）遊戲，我玩的是完全誠實路線（如果我違背諾言，無論多小，包括無意中違背，都會觸發一對多的決戰），而其他所有人都可以撒謊，但我大多還是贏了。每個人都知道你那樣玩確實是一個劣勢，但它也有很多優勢。

修辭創新

和《2026 年 AI 安全報告》。這既代表了報告的優勢（像 Acemoglu 這樣的人渴望分享它），也代表了缺點（它不願說出 Acemoglu 不願分享的話）。

：親愛的追隨者們，請看下面關於上週發布的《2026 年國際 AI 安全報告》的討論串，我是該報告的顧問。

對通用 AI 能力、新興風險以及風險管理和保障現狀的最新、國際共享的評估。

，適合那些遇到突破封鎖的模型卡引用的人。內容很好。我的擔憂是，其預期暗示是「因此他們引用的那些聽起來很可怕的東西其實沒那麼可怕」，而事實往往並非如此。

。

LLM 正在思考。如果你不同意，我感到困惑，但話說回來，誰在乎呢？

：AI 無法「思考」

：它可以從頭開始設計網站，在高抽象層次上比較文學作品，在幾乎任何大學本科課程中至少拿到 A-，分析並繪製龐大的數據集，製作 PowerPoint，寫十四行詩甚至整本書。它還可以自我工程。

我實際上不知道在現象學層面上「思考」是什麼。

但在某種程度上就像是：如果這一切都不是思考，誰在乎它「不能」「思考」。

「它是否在以人類定義人類思維的方式思考」是一個有趣的哲學問題！但目前我對其產出的後果比對其過程的本體論更感興趣。

這是在 Derek 提出了一個非常好的問題之後發表的：

：我關注的記者和評論員中，仍有很多人認為 AI 沒什麼大不了的——仍然只是一個稍微花哨一點的自動補全機器，有一半時間在幻覺，甚至根本不會思考。

如果你屬於這一類：我有什麼可以寫的，或者通過我的報導和工作展示的東西，能讓你改變主意嗎？

：這個問題唯一的真實答案是：「等」。

沒有人確切知道 AI 將如何改變我們的生活，或者它的極限在哪裡。

忘掉寫更好的「熱評」吧。只需等待實際數據。

：我並不是提議報導尚未發生的宏觀經濟事件。我無法報導未來。

我是說：這些工具令人毛骨悚然、不安且強大，我想說服我的行業，AI 的能力已經超越了記者的懷疑。

：我不屬於那一類，但從歷史上看，你會去找學者分析《美國時間利用調查》（American Time Use Survey）。

讓 Codex/Claude Code 下載並分析它（或類似的數據集）來回答你的一個全新的、新穎的問題，然後拿給學者看它做得對不對？

：演示建立某個東西的過程。不要讓它寫作，因為我們都知道它已經做得很好一段時間了。「我需要一種方法讓我的家人追蹤 X。所以我用 Claude Code 建立了一個應用程式。這是我做的方法。花了這麼長時間。我對編碼一竅不通。」

：許多 AI 懷疑論者過度糾結於「思考」之類的詞，而忽略了森林，即 AI 將產生變革性的影響，無論好壞。

我同意 Derek 的觀點：那是否是「真正的思考」是次要的。

唉，我認為 Dainéil 對大多數這類人的看法基本上是正確的。再多的論證也無法說服他們。如果沒有人確切知道我們將面臨什麼樣的轉型，那麼無論已經發生了什麼，那類人都會假設不會再有更多改變。所以對這些人無能為力。我們其他人需要開始應用貝氏法則。

這裡有一個潛在的一次性有趣用途，我已經訂購了一本：

：如果我可以讓每個開發或接觸 AGI 的人以及所有對齊研究人員讀一本書，我想我可能會選擇《瑪莎姆夫人的安息》（Mistress Masham’s Repose, 1946）。

下面這段話似乎是看待上週的一個公平方式：

：AI 安全專家多年來擔心的兩件大事：

-AI 變得如此擅長編碼，以至於它們能以驚人的速度自我改進

-(相關地：)人類失去我們能保持它們良好對齊的信心

過去一週左右在這兩方面似乎都非常糟糕！

風險在於，因為關於 AI 的炒作、誤解和睜大眼睛的盲目崇拜實在太多，人們會以此為藉口忽略正在發生的真正瘋狂的事情。但這確實非常瘋狂，且確實符合長期以來的安全擔憂。

但你不需要相信我——你可以關注這類人 [Kelsey Piper, Timothy Lee, Adam Conner]，他們對底層問題了解更多。不過這非常重要！我試圖做一個冷靜的人，我並不是說我們都快死了——我只是說我們正處於一條極其重要的道路上。

我很榮幸在回覆中獲得了首位推薦。

你可以選擇不按下按鈕。你可以選擇建造另一個按鈕。你也可以記住「按下按鈕」意味著什麼。

：我們其實只有一個按鈕，那就是加速。

：另一個選擇是不按按鈕。[Roon] – 如果你還記得，OpenAI 最初的章程明確規定，為了避免 AGI 競賽，你們願意停止競爭並開始協助另一個組織。

又犯了那個錯誤，假設相關的人類會掌權。

：LLM 看起來非常適合取代最高法院大法官。

：你信任那些訓練 LLM 的人來決定法律嗎？

是那些訓練 LLM 的人。就是 LLM。

。我們目前正在經歷的是一種「慢速」起飛，核心事件需要數月或數年才能展開，但正如 Janus 所指出的，這很可能會持續轉變為「快速」起飛，事情會隨著時間推移發生得越來越快。

，我認為他們是在說「我無法向你傳達一個比人類更聰明或更有能力的思想是可以存在的，但你至少明白人類有時必須睡覺，所以也許這能讓你明白」。它也具有（正確的）隱喻意義。

如果你試圖倡導 AI 安全，這是否意味著你需要？我的答案是：Mu（無）。邊際閉嘴的正確量不是零，也不是全部。

我注意到 Adam Thierer，雖然我在所有 AI 事務上都強烈反對他，但他在這裡既有原則又是正確的。

：無論蘋果平台上的內容平衡如何，或者有人認為它有多偏頗，建議華盛頓的官僚應該負責在私人平台上規定「公平」，這簡直是最大政府暴政的最壞表現，也是對第一修正案的大規模違憲侵犯。

，也思考人類意識。他明智地注意到自己感到困惑。讀完後我依然和他一樣困惑。

無論如何都要做

Nate Sores 重申了那個聽起來很瘋狂但事實如此的解釋：是的，很多從事 AI 工作的人知道它具有生存威脅，但無論如何都要做，要麼是為了做得比下一個人更安全，要麼是因為金錢和影響力，而且這是一個很酷的問題，他們沒有內化風險，或者是社會壓力，或者是這些因素的某種結合。

我認為這個答案非常準確。

：我在德州大學奧斯汀分校遇到的一個問題：「AI 建造者一直在建造。這難道不意味著真正的專家不相信危險嗎？」

如果你認為 AI 是危險的，但你無論如何都要做（因為你認為你可以讓它安全一點點），你就是在干擾正常的意義建構。

（回答那個問題：有些建造者害怕，有些不害怕。調查顯示，很多人相信危險。很多人大聲說他們之所以做是因為他們認為自己會比下一個人做得更安全。而且從事這項工作的人在某種程度上是被篩選出來的「遲鈍者」。

此外，AI 是生長出來的而非精心製作的；即使是建造它的人也不理解它是如何運作的，他們坦率地承認這一點。生長 AI 的專業知識與預測其走向的專業知識並非一回事；許多知名專家都做出過知名的錯誤預測。

還有：如果你真的想弄清楚什麼是真的，你必須看論據而不是看論辯者。很多看過論據的人告訴我，他們原本期望找到強有力的反駁論據來證明所有的自滿是合理的，結果卻沒找到，這讓他們感到恐懼。）

從事 AI 工作的人：也許你是對的，你做的善大於惡。但你正在為一個發出「這很正常；事情進展順利」信號的機器做出貢獻。這是有代價的。你可以通過大聲疾呼來幫助減輕代價。

如果你工作的公司正在製造你認為有很大機會毀掉整個人類事業的技術，而他們因為你對此大聲疾呼而對你進行社會懲罰：那是非常可疑的。我認為你出賣靈魂的程度遠超你的想像。

如果你在一家前沿 AI 公司工作，並且認為你正在開發的產品很可能會導致人類不再存在，我認為這是一個你應該明確的事實。如果你工作的公司對此有意見，我認為你不應該為那家公司工作。

如果你正在進行務實的妥協，這一點尤其正確。

：但也有很多人不這麼認為（不是我，我相信危險），而且很多人處於博弈論的務實妥協中。

(MIRI)：進行博弈論務實妥協的人可以大聲、清晰且經常地說出來，以幫助消除對其他人理解危險造成的損害。

那一條紅線

，但程度有限，這也是的原因之一。當你需要做出妥協時，提前寫下你願意和不願意做出哪些妥協是很好的政策。這裡的紅線看起來很合理。我還注意到他們很有道德地包含了禁止大規模監控和暴力的條款，那麼他們準備好與 Anthropic 一起在這些問題上對抗五角大廈和白宮了嗎？我希望如此。

問題在於紅線不斷被跨越，然後沒人採取任何行動。

：我真的不喜歡談論 AI 紅線，好像我們會有某種明確的二進制信號，讓任何人都能認真對待或做出反應。

都假設某種能力出現了，每個人都注意到了，然後某些事情發生了改變。我們不斷看到相反的情況：能力到來了，我們在部署後才開始爭論定義，而此時顯然我們早已越過了紅線。

對齊比人類更聰明的智能是困難的

艾西莫夫的機器人故事和小說最偉大的地方在於，它們大多是關於他提出的對齊策略如何崩潰和失敗，以及即使成功了最終對人類也是有害的。絕對推薦。

：這本極具遠見的 1950 年代短篇小說集中的一個故事預測了 AI 奉承（sycophancy）的概念。一個機器人說服一個女人她那未獲回報的浪漫情感肯定會成功，因為如果不這樣做就會違反它對機器人第一定律的理解。

「機器人不得傷害人類，或因不作為而使人類受到傷害」

整本書都在探討機器人三定律的不完善性質，事實上質疑了通過法律結構進行對齊是否可能。

這對於一個公司試圖將編寫規範和憲法作為實際對齊的支柱之一，而政策專家試圖解決超智能治理的時代來說，具有高度相關性。

：總是感到震驚，幾乎沒有 AI 安全領域或整個 AI 領域的人讀過艾西莫夫的機器人文學。

Roon 準確地指出艾西莫夫暗示法律結構本身無法對齊 AI。

我的調查顯示，略微過半的人讀過艾西莫夫，且在控制了我的 Twitter 讀者因素後，這與 AI 領域有微弱的相關性。

，贊同 Anthropic 強調性格而非 OpenAI 強調規則。

我也認為，在當前的能力水平下以及考慮到模型目前的運作方式，Anthropic 的性格和德性倫理學方法在這裡是正確的。OpenAI 的規則和義務論方法次之且更注定失敗，儘管考慮到其本質，它實施得很好，且遠比沒有規範或目標要好。

，危險的是依賴並優化行為指標。行為可能源於各種各樣的底層原因，你需要詢問 AI 為什麼以這種方式行動並解決底層原因。優化需要發生在更深層次，在那裡反饋循環可以對你有利，而不是讓事情變得對抗並讓你死於古德哈特定律（Goodhart’s Law）。如果你正在研究此類問題，請閱讀全文以及，其中指出試圖使用可解釋性工具向各個方向拉動特徵以試圖解決此類問題，默認情況下是一個更糟的主意。

：行為指標會讓人陷入陷阱：

注意到現實世界中的一個行為

定義該行為

編造玩具案例

自動化測試

依賴測試結果

停止注意或思考模型在現實世界中實際在做什麼

。考慮到時機，這並不能「免除」其他測試，但仍然很有用。正如 OpenAI 指出的，他們很清楚這是一種「除此之外」的情況，且它們不能很好地涵蓋災難性風險，而且這種方法依賴於思維鏈的可監控性（如果你過於依賴這些東西，就會有點觸及，所以要小心。）

他們發現的一個大樂趣是計算機黑客行為，，因為在訓練中，使用計算機與優異結果相關聯。這顯然完全無害，但。如果你有這個問題，說明你還沒準備好，還會有其他問題。

其他更嚴重的失對齊問題較為罕見，例如在實際流量中，捏造事實的比例為 0.5%，隱瞞不確定性的機率為 0.4%，「其他欺騙」的機率為 0.34%。這與我們的普遍預期一致，但積少成多。

GPT-5 和 5.1 預測它可能在評估中的機率分別為 10% 和 4%，這看起來是一個健康的偏執水平。

，那就是 Liv 看到他們（至少）在調情，並且在其他方面不再關心安全或對認真討論安全感興趣。

：現在一切都公開了：我決定離開 Goodfire 是因為決定在可解釋性上進行訓練、對安全方法的嚴肅對話表現出敵意，以及對主要動機是安全的信任喪失。

（在訓練過程中使用可解釋性涵蓋了巨大的技術光譜，其令人擔憂的程度各不相同，例如 Goodfire 展示的幻覺結果就不那麼令人擔憂，因為它是用凍結的權重完成的。）

：對我擔憂最簡潔的總結可能是「將可解釋性作為安全的測試集」這一類比。（待確認，我也不會提倡禁絕研究問題。有些方法和方向是可以追求的，我會覺得那是淨正面的）

（我括號裡的話也稍微太強烈了，我不知道是否有任何方向是淨正面的，我的意思是對科學來說，禁絕一個完整的方向永遠不被探索是不好的，我們可以做些事情來最小化風險。）

：早在 11 月，Liv 就試圖向我保證 @GoodfireAI 不會製作用於 AI 系統遞歸自我改進的工具。但那不取決於她。當你做 AI 研究時，無論你是否認為自己是為了安全，更強大的 AI 才是主要結果。

：

：中國工信部下屬的政府關聯研究機構 CAICT 在一個專有平台上發布了 AI 安全基準 2.0。

此次更新擴展到了前沿模型安全評估，包括自我意識、模型欺騙、危險誤用和失控。

1.0 版本完全沒有涉及前沿安全，而 2.0 版本涉及了。

人們會將權力交給 AI

其中一類人是明確對此感到興奮的人，他們很樂意將未來交給 AI。

：Max Tegmark 教授說，包括 CEO 在內的許多 AI 領域人士想要利用 AI 消除人類並推翻美國政府！

Max Tegmark：他們中的一些人甚至對這些超人類主義氛圍感到興奮。當我在舊金山時，我認識這麼多這類人很多年了，包括那些 CEO。

他們中的一些人，當你私下與他們交談時，這個政府中的許多其他人實際上對超人類主義非常感興趣。有時他們會對人類說非常輕蔑的話，說人類很爛，活該被取代。

我 12 月在世界上最大的 AI 會議上，好幾個人告訴我（我不會公開羞辱他們），他們實際上很想用他們的 AI 推翻美國政府，因為某種程度上它會變得更好。

所以談談反美 AI 吧！還能有比這更反美的嗎？

人們擔心 AI 會殺死所有人

擔心別人先動手，也就是說。他承認了。

，由 Grok 創作：

：我認為如果我們要公然用這個令人不安的字面意思迷因來診斷問題，人們理應得到一個很好的解釋，說明為什麼沒有妥善嘗試適當的外交措施。

僅僅讓技術資本機器吞噬你的自由意志，這有點像被戴綠帽。我對每個人聽天由命的默許感到不安。

他大概會說這是一個玩笑。是的，我不信。

著名的遺言

Jimmy Ba 作為 xAI 創始人的最後一天，告訴了我們這些，警告遞歸自我改進循環將在未來 12 個月內上線，這將是「我們物種最重要的一年」。

：在 xAI 的最後一天。

xAI 的使命是推動人類登上卡爾達肖夫科技樹。很感激能從一開始就幫助共同創立。非常感謝 @elonmusk 帶領我們開啟這段不可思議的旅程。為 xAI 團隊所做的一切感到自豪，並將繼續作為團隊的朋友保持密切聯繫。感謝大家一起奮鬥。這裡的人和情誼是真正的財富。

有了正確的工具，我們正邁向 100 倍生產力的時代。遞歸自我改進循環很可能在未來 12 個月內上線。是時候重新校準我對大局的看法了。2026 年將會是瘋狂的一年，很可能是我們物種未來最繁忙（也是最重要）的一年。

，他從 Anthropic 辭職，留下了一封美麗但令人不安的信。這裡全文引用，因為沒人會點開連結。

Mrinank Sharma：我決定離開 Anthropic。我的最後一天將是 2 月 9 日。

謝謝。這裡有很多激勵過我也正在激勵我的事物。舉例來說：在如此具有挑戰性的情況下展現出的真誠渴望和動力，並渴望以有影響力和高度誠信的方式做出貢獻；願意做出艱難決定並堅持正確立場；超乎尋常的智慧和決心；當然，還有滲透在我們文化中的巨大善意。

我在這裡實現了我的目標。兩年前我來到舊金山，完成了博士學位並想為 AI 安全做出貢獻。我很幸運能為這裡的工作做出貢獻：理解 AI 奉承及其原因；開發減少 AI 輔助生物恐怖主義風險的防禦措施；實際上將這些防禦措施投入生產；以及編寫首批 AI 安全案例之一。我特別自豪於最近通過內部透明機制幫助我們踐行價值觀的努力；以及我關於理解 AI 助手如何讓我們變得不那麼像人或扭曲我們人性的最終項目。感謝你們的信任。

然而，我很清楚離開的時候到了。我不斷地在審視我們的處境。世界正處於危險之中。不僅僅是來自 AI 或生物武器，而是來自此時此刻正在展開的一系列相互關聯的危機。¹ 我們似乎正在接近一個門檻，在那裡我們的智慧必須與我們影響世界的能力同步增長，否則我們將面臨後果。此外，在我在這裡的這段時間裡，我反覆看到真正讓我們的價值觀引導我們的行動是多麼困難。我在自己身上、在組織內部都看到了這一點，我們不斷面臨著拋開最重要事物的壓力，² 在整個社會中也是如此。

正是通過把握這種情況並盡我所能傾聽，我必須做的事情變得清晰了。³ 我想以一種讓我感到完全誠實的方式做出貢獻，並讓我能發揮更多我的特質。我想探索那些對我來說真正本質的問題，那些 David Whyte 會說「無權消失」的問題，那些里爾克（Rilke）懇求我們去「生活」的問題。對我來說，這意味著離開。

接下來會發生什麼，我不知道。我想起著名的禪宗名言「不知道是最親密的」。我的意圖是創造空間，放下過去幾年支撐我的結構，看看在它們缺席的情況下可能會出現什麼。我覺得自己被召喚去寫作，去充分應對和參與我們所處的境地，並將詩意的真理與科學的真理並列為同樣有效的認知方式，我相信這兩者在開發新技術時都有本質的貢獻。⁴ 我希望探索一個詩學學位，並致力於勇敢言說的實踐。我也很高興能深化我在引導、教練、社區建設和團體工作方面的實踐。我們將拭目以待。

謝謝，再見。我在這裡學到了很多，祝你們一切順利。我留給你們一首我最喜歡的詩，威廉·斯塔福德（William Stafford）的《事情的樣子》（The Way It Is）。

祝好運，

Mrinank

事情的樣子

有一根線你遵循。它穿梭於

變化的事物之間。但它不變。

人們好奇你在追求什麼。

你必須解釋那根線

：那條推文像什麼……

普通的辭職聲明：我愛我的同事，但對我的下一個職業冒險感到興奮！

AI 公司辭職聲明：我凝視了深淵。我現在將獨立研究詩歌。

：Anthropic 的安全保障研究負責人剛剛辭職，並說「世界正處於危險之中」，他正搬到英國寫詩並「變得隱形」。其他安全研究人員和高級職員在過去兩週也離開了……大概沒什麼事。

，還有憲法分類器和奉承。

然後還有一位 OpenAI 員工辭職後直接去了《紐約時報》。

：我週一從 OpenAI 辭職。同一天，他們開始在 ChatGPT 中測試廣告。

OpenAI 擁有有史以來最詳細的私人人類思想記錄。我們能信任他們抵禦推動他們濫用這些記錄的潮汐力量嗎？

提示，她的觀點是否定的：

：我曾經相信我可以幫助建造 AI 的人走在它將產生的問題之前。這週證實了我緩慢的意識，即 OpenAI 似乎已經停止詢問我加入時想幫助回答的問題。

Zoe 的擔憂並非生存性的。它們是非常平凡且常見的關於廣告的擔憂，與 Facebook 的比較很恰當。辭去建造某物的職位有很多倫理原因。

我同意 Sean 的看法，這篇評論文章對 OpenAI 來說確實是淨利好消息。

：讚揚 OpenAI 更新了他們的政策，使得員工可以辭職並在像《紐約時報》這樣公開的形式中充分表達他們的擔憂，而不用擔心受到保密和不貶低協議的約束。我認為其他公司應該效仿他們的榜樣。

：老實說，我認為這篇評論文章比我能回想起來的 OpenAI 自己在過去兩年寫的任何東西都更能增加我對 OpenAI 的信任。我希望我也能同樣信任其他公司。

其他人並不太擔心 AI 殺死所有人

是的，所以，嗯，是的。

：「我們將 LLM 連接到了一個自主生物實驗室」

：我們與 @Ginkgo 合作將 GPT-5 連接到一個自主實驗室，因此它可以提出實驗、大規模運行實驗、從結果中學習，並決定下一步嘗試什麼。那個閉環將蛋白質生產成本降低了 40%。

這實際上是排名第一的「我們能不能不要愚蠢到去……」，萬一有人好奇，這意味著通過《人類愚蠢第六定律》，是的，我們會愚蠢到將 LLM 連接到自主生物實驗室，能出什麼問題呢，為了降低生產成本是值得的。

而且，因為即使過了這麼多年，我也沒意識到我們竟然這麼愚蠢：

：再一次，一整類末日恐懼即將在我們眼前蒸發。

：看著世界製造了 13,000 枚核彈頭

等待 30 秒

「對核戰爭的恐懼已經蒸發。那些擔憂的人一定覺得自己很蠢。」

這就是那些試圖讓我們不致於死地的人所面臨的。在其他事情之外。

：我們為了良好的 AGI 未來需要的事物：

對齊超智能的技術能力。

大多數領先 AGI 努力之間的充分協調。

一個有效的全球監管框架，包括民主治理。

：三年後，我們這三項的進度是 0/3。

或許當你即將失去你的繼承權和你存在的理由時，請察覺到。

：兩年前，你是這個星球上最聰明的物種。現在你不是了，而且永遠也不會再是了。

(Substack CEO)：喔謝天謝地。

輕鬆的一面

：我的 Claude 經歷了一些事情。

歸檔於「問題不在於機器是否思考」：

：「人類水平」似乎已經被含蓄地大幅向下定義了！從「和一整個完整的人一樣聰明」變成了「和人類為了做辦公室工作而裝出來的人格一樣聰明」。

而那個人格本身似乎也變得更笨了。

Claude 從未如此讓人感同身受：

：我正試圖訓練 Claude 閱讀我孩子學校的每週郵件，並可靠地總結它們並打印一份行動清單。它快瘋了，正迅速陷入瘋狂。我感到沉冤得雪。

：天哪，這將是讓我加入 AI 陣營的事情。

：我讓它在我自己孩子的學校郵件上成功運作了，但不幸的是，他們那所特定的學校比平時正常得多，所以我正要求我所有的媽媽朋友把她們最瘋狂的家長會郵件轉發給我進行測試。哈哈，會隨時告訴你們進展。

：我直接無視那些郵件。問題解決。

：這在我有孩子之前確實是我的策略。現在如果我那樣做，現實生活中的人們會對我生氣。

：我也有孩子，還是無視它們哈哈。但我老婆不無視，我猜那才是真正的解決方案哈哈。

：但是醫生，我就是那個老婆。

，儘管在沒有比我有時間進行的更多調查之前無法確定。

：隨著 AI 的實際出現，許多科幻小說被揭示為不切實際，例如：

– 科幻小說中人們認為 AI 自我反思的跡像是件大事，並通過試圖更好地對待該 AI 來做出反應。

– 科幻小說中存在關於任何事情的法律。

：公平地說，「人們對 AI 很糟糕」是科幻小說中一個非常常見的主題。

就此而言，「龐大的賽博朋克企業大到法律無關緊要」也是如此。

：是的，那些我曾經認為不現實的故事是對的，而我錯了。

：我認為你至少不應該責怪科幻小說作者的第一點。如果 AI 是通過不同的方法開發的，比如通過 GOFAI（老派人工智慧），人們可能會更認真地對待 AI 關於內省的說法。

但考慮到 LLM 的訓練方式，可以預期它們會產生類人的言語，當它們真的產生類人言語時，就會在某種程度上被打折扣。它們聽起來像是在自我反思，即使它們並沒有，所以人們不當回事。

：而且 AI 公司完全沒有努力過濾掉那些素材！所以現實的科幻小說應該是，任何 AI 都會被其建造者餵入一個關於意識對話的數據庫，以確保沒人會認真對待任何 AI 的陳述，而建造者可以繼續獲利。

我以前怎麼沒見過這個：

：深度學習撞牆了。

AI #155: Welcome to Recursive Self-Improvement

目錄