AI #156 第二部分：修辭的錯誤

Lesswrong

8 天前

AI 生成摘要

這篇文章探討了 AI 如何降低修辭與法律爭議的邊際成本，導致大量的「AI 廢話」湧現並挑戰現有的行政與正當程序體系。我分析了當這些「咒語」變得廉價時所帶來的影響，以及為了防止制度過載，我們可能需要進行哪些系統性調整。

目前正被推遲到未來的事項：

Gemini 3.1 Pro 與 Gemini DeepThink V2。
Claude Sonnet 4.6。
Grok 4.20。
代理式編碼（Agentic Coding）的更新。
Anthropic 與戰爭部（Department of War）之間的歧見。

我們正式進度落後了一點，下週必須趕上。

即便沒有上述這些，我們今天的內容依然非常充實。

。爭論的邊際成本正在下降。
。英國 AISI 發現了一種通用方法。
。一些相對不錯的提案。
。唉，大多是出於錯誤的原因。
。Nick Bostrom 寫了一篇令人極度失望的論文。
。最糟糕的計劃竟是目前唯一的方案。
。<旺卡語氣> 不，停下，回來。
。「你能嗎？」的新境界。
。尋找一個良好的吸引盆（basin）。
。提防負責任的不確定性量化。
。抱歉，我無法幫你。可疑。
。正在取得進展。
。他們一直告訴我們他們會這麼做。
。或者出於不明原因而不擔心。
。唉，黃仁勳。
。文字氾濫。

摩擦力的層級

如果邊際成本趨於零，卻對他人造成高於零的邊際成本？那樣的系統將會面臨糟糕的時刻。

：在矽谷偶爾聽到：「」

：Lewis Silkin 律師事務所勞工團隊的法律總監 Anna Bond 表示，過去收到的申訴通常只有一封電子郵件的長度。現在，她看到的投訴可能長達 30 頁，涵蓋廣泛的歷史問題，其中許多內容不斷重複。

「我懷疑背後是 AI 在推動，」Bond 說。

沒必要懷疑，就是 AI。這裡的邊際成本依然遠非零，你還是得設法為 AI 收集並記錄所有資訊。

如果 AI 正在將投訴擴展成巨大的 AI 廢話（slop），那麼應對方式就是使用 AI 來處理這些投訴。你把一段話變成 30 頁，然後我把你的 30 頁變回一段話，但保留根據需要查詢那 30 頁的能力。我知道哪些部分重要且應該出現在那段話中，所以這可能是件好事。

其餘的例子也類似。如果你面對的是 AI 廢話般的法庭文件，你可以駁回它們，或者調用你自己的 AI，或者兩者兼施。

更大的問題在於當 AI 掌握了「咒語」（magic words）時會發生什麼。

：這不是我預期中對抗性接觸點會最先飽和的地方，也絕對不會是最後一個這樣的故事。

如果存在能在物理世界觸發效果的咒語，那麼資源的支出就隱含地受到「有多少人知道咒語並優先說出它們」的速率限制。

我們的社會中有很多咒語。

大概在某些情況下，我們會決定「既然言語廉價，它們就不可能同時具有魔力」，但我們以前審視過某些接觸點的這種權衡，並說「不，實際上這裡至關重要：正確順序的正確字句永遠是咒語。」

我最傾向於想到金融領域的幾百個例子，但美國憲法的「正當程序條款」（Due Process clause）在行政國家的所有層級和幾乎所有活動中，都產生了無數的咒語。

而且憲法並沒有逃生艙口可以說：「如果一項表面有效的正當程序救濟請求不是由人工精雕細琢的，它就是無效的。如果不是由經認證的重要人物簽署，它也是無效的。」

噢，當然有，那就是憲法中所謂的「最高法院成員根據可行性胡謅」條款。你知道那個。

我這話並非貶義。好吧，有時確實是，但也有許多「非自殺契約」（not a suicide pact）的裁決可以根據實際情況進行調整。如果每個人都能隨時要求完整的正當程序，且他們開始頻繁這麼做，那麼我們將重新定義正當程序的樣貌，讓 AI 承擔大部分工作，或者改變你在何時有權獲得多少程序。畢竟，到底「正當」的程序該有多少？

「金融界的例子？」

關於電子交易處理錯誤的 Reg E 申訴。如果你說出「Reg E」，銀行就得花掉大約 200 美元，除非他們已經激進地優化了降低該成本的流程。

沒錯。銀行現在花了 200 美元，但他們可以且將會優化以降低該數字，主要是透過 AI。這將包括某種形式的「使用 AI 來檢測何時有人可能在提出無效的 Reg E 索賠」。

「非金融界的例子？」

對老師的投訴要麼是 a) 自古以來學生常見的牢騷，要麼是 b) 立即展開的 5 到 6 位數金額的調查。只需要三個字就能將投訴提升到第二類。

這是一個有趣的非 AI 例子，因為你要麼知道那三個字，要麼不知道，而我們大多數人都知道或猜對了。

越獄的藝術

英國 AISI 分享了關於其通用越獄技術的資訊：

：今天，我們分享關於（Boundary Point Jailbreaking, BPJ）的資訊：這是一種全自動方法，用於在完全「黑箱」的環境下（攻擊者僅能看到輸入是否被阻攔），針對已部署的最強大 AI 防禦開發通用越獄。

我們相信 BPJ 是第一個成功攻破憲法分類器（Constitutional Classifiers）[1] 的自動化攻擊。Anthropic 的這套防禦系統此前，期間僅發現一次由人類主導的完全成功攻擊。BPJ 也是第一個在不依賴人類種子攻擊的情況下，成功攻破 OpenAI GPT-5 輸入分類器的自動化攻擊 [2]。

防禦方面一個顯而易見的建議是使用一個可能非常廉價的「輸入是否存在異常」分類器，來發現你懷疑有人試圖使用對抗性提示詞的時刻。

追求理性的監管

OpenAI 尚未完全放棄舊有的半理性模型，這是一個好跡象嗎？

：Sam Altman：「世界可能需要像 IAEA（國際原子能總署）這樣的機構來進行 AI 的國際協調。」

沒錯！

。

保護兒童與學生：家長可見度。對高風險 AI 服務進行年齡驗證。要求掃描自殘行為。教導兒童關於 AI 的知識。明確學校使用 AI 的指南，探索最佳用途。禁止 AI 生成的兒童性虐待內容（CSAM）。
奪回數據控制權：隱私法、數據所有權、禁止出售個人數據、披露 AI 互動、數據收集與訓練數據。
阻止深度偽造（Deepfakes）：元數據標準、來源追蹤、分發處罰。
讓數據中心為民服務：禁止漲價、執行協議、加速使用綠能的數據中心、利用私人資金修復電網、監控用水、堵住財產稅漏洞。
保護與支持勞工：要求大公司報告與 AI 相關的勞動力變化。提供技能提升的稅收激勵、投資再培訓、禁止 AI 作為招聘和解僱的唯一決策者、AI 需要與人類相同執照的過渡期、對大公司徵收「AI 紅利」稅。
將前沿 AI 的 Raise Act 國有化：要求獨立安全測試、強制報告網絡安全事件、限制政府使用外國 AI 工具、建立對造成損害的 AI 系統的問責機制、參與 AI 問題的外交。
建立政府監管 AI 的能力：資助 CAISI、擴大技術專長、要求開發者向監管機構披露關鍵事實、制定災難性風險的應急計劃。
保持美國競爭力：聯邦資助學術研究、支持安全且有益應用的私人開發、「在不扼殺創新的情況下保護人民的合理監管」、與盟友合作建立安全標準、戰略性出口管制、為國際協議敞開大門。

我希望在這裡看到更多對前沿 AI（Frontier AI）的強調，且我對第 5 點中的執照和稅收談論感到擔憂，但總體而言這是一份紮實的清單。此外，如果你忽略那幾項，這是一份非常平衡、大多數人都應該能支持的清單。

(OpenAI)：我認為這個框架的大部分內容實際上相當符合常識，並回應了公共、私人和國家戰略需求的交集。我在少數地方有異議，但這是一個冷靜、可靠的對話貢獻。

：感謝 Joshua 實話實說並參與細節。

OAI/A16z/Palantir 的超級政治行動委員會（Superpac）投入巨資攻擊 Alex Bores，只因他提出了溫和且符合常識的 AI 平台，這坦白說是我在政治中見過最令人幻滅的事情之一。

，並傾向於。

(FT)：一位白宮官員表示，政府反對該法案是因為它類似於加州的 SB53，批評者稱該法案在美國 AI 公司試圖與中國競爭時增加了不必要的官僚負擔。

這完全搞反了。SB 53 是一項溫和到連 David Sacks 都覺得可以作為國家標準的法案，而擔憂在於各州會出現拼湊式的不同法律。如果猶他州提議的 HB 286 與 SB 53 重疊，且白宮並非在關心事項上撒謊，那麼這種重疊對 AI 公司和白宮來說應該是天大的好消息。

HB 286 中確實有一些額外要求：

任何擁有百萬月活躍用戶（MAU）的人都需要有兒童保護計劃。
舉報人保護範圍更廣，這看起來是好事。
必須向猶他州提交季度報告，而我們不希望你必須提交 50 份不同的報告。

季度報告似乎是最強烈的反對點，我也還沒仔細研究兒童保護要求，但這些通常是法案推進過程中可以修正的問題。相反地，白宮卻稱這是一項「無法修正」的法案。

「AI 代理標準倡議」（AI Agent Standards Initiative），旨在促進互操作性和安全創新，支持代理的標準和開源協議，並促進值得信賴的採用。這很好，但這並不能緩解我們的核心問題，而且這絕對不是一個聯邦框架。

，是他 OpenAI 工作的延伸。

「模擬人類交流」或「展示情感」將是一個嚴重的錯誤，這對模型及其用戶的性能和體驗都相當不利。如果做得明智，將完整的伴侶式服務隔離開來似乎是可以接受的。

，學術界反應太慢而顯得無關緊要，結果兩者在 AI 討論中幾乎完全被拋在腦後。

人們真的很討厭 AI

：我去了華盛頓特區與不同政治立場的人交談（並參觀了一些數據中心），結論是我們真的還沒準備好面對人們有多討厭 AI。

。

Jasmine 列舉了反對 AI 的各種擔憂聯盟，其中許多是幻影，且沒有一個是關於災難性或生存風險的。「不願合作者聯盟」排除了真正擔心人類滅絕的 AI 安全人士，因為那些人是有認識論和原則的。

我聽說 MIRI 風格的末日論者現在是某些共和黨參議員辦公室的常客，而民主黨參議員則敲開 AI 風投家的大門，詢問我們是否會面臨大規模裁員。

AI 安全社群似乎對於是否參與民粹主義抗議策略感到。從性格上看，大多數有效利他主義類型傾向於技術官僚式的精確，而非激烈的口號宣傳（這種特質雖然令人敬佩，但並不總是能服務於他們的目標）。這就是為什麼會出現這樣的情況：——傾向左翼的華盛頓特區 EA 負責人——最終寫出了針對 ChatGPT 耗盡亞馬遜河這一激烈但的最佳反駁。Masley 關心 AI 風險，但他更關心嚴謹的認識論。

因此，我們面臨的情況是：無情的騙子透過氛圍營造和關聯性攻擊，成功地汙名化了大部分對生存風險的關注，並讓許多立法者相信這只是行銷噱頭或某種「多角戀」糾葛；而真正的安全人士卻在某種程度上衝向第一線，為 AI 產業辯護，抵禦對數據中心的攻擊。

互惠？沒聽說過。我確實好奇這涉及的決策理論。在何種程度的惡意戰爭下，你有義務停止倡導局部正確的答案？

這種考量的正確程度不應為零，而且在某個時刻，。當你的橄欖枝一再被拒絕，且敵人因為你現在或未來可能與他們的其他敵人結盟而主動攻擊你時，你遲早會開始覺得不如真的這麼做。

我還遠未達到那個地步。但這確實令人深思。

與此同時，實驗室們顯然沒能平息傳言。

你可能會認為疫情給了我們關於公眾準備工作的教訓，但實驗室的朋友告訴我，根本沒時間處理政策或緩解減速派（decel）的擔憂。

大多數研究人員對於工作、教育和人際關係的未來都沒有好的答案；儘管他們誠摯地同情這些傷害。當然，他們知道自己應該處理。他們捐款、發表研究、盡力發聲。但一切都太、快、了。

好吧，如果「沒時間處理」擔憂，那就擠出時間來。這並不意味著要放慢主要工作的進度。數千億美元正在湧入，你可以花點錢來處理這件事。這對生意有好處，更不用說他們快要把我們都害死了。

Jasmine Sun 認為華盛頓特區和舊金山驚人地相似，並沉思道：「[紐約為世界其他地方創造了什麼？](http://What has New York created for the rest of the world?)」卻想不出答案。這對舊金山和華盛頓的說明多過對紐約的說明。

光是問這個問題，大型語言模型就會給出：百老匯、城市規劃的網格系統、嘻哈音樂、現代單口喜劇、龐克搖滾與新浪潮、抽象表現主義、現代 LGBTQ+ 權利運動、摩天大樓天際線、現代廣告、現代新聞業、雜誌文化、現代圖書出版及我們整個媒體生態系統、華爾街、現代或標準化的金融市場。

當然，還有空調、衛生紙、信用卡、洋芋片、貝果、披薩、左宗棠雞、班尼迪克蛋和拼字遊戲（Scrabble）。喔，還有「野心文化」的概念本身。

我意識到有人可能會回應「當然，但最近你們做了什麼？」而 GPT-5.2-Pro 給我的完整回覆並不是個好兆頭：

所以我承認，除了「作為紐約市並繼續做紐約該做的事，並產生天文數字般的剩餘價值和經濟價值」之外，紐約最近確實沒有什麼特別的轉型創新。但這紀錄比華盛頓特區好多了，後者的淨經濟產出和轉型創新數量一直是嚴重的負值。所以這主要是因為「唯一發生的大事是 AI，而那主要是舊金山的事，紐約頂多只排進前三，跟倫敦並列」。

很難不讓人產生這樣的印象：我們被困在兩個嚴重失調的權力與金錢中心之間，兩者的核心目標都是獲取更多權力與金錢，如果你敢關心其他任何事情，他們的悖論之靈就會攻擊你。

刊登了。我認出了其中一個，其他人似乎是在表達對平庸 AI（mundane AI）的擔憂。

與此同時：

：一段影片獲得了 7 萬 2 千個讚，內容是一對夫婦的地下水乾涸了，原因是某個數據中心的建築廢棄物問題，而該數據中心甚至還沒啟用，且根本不抽取當地地下水。

：聽著，這就是 AI 對人們家園所做的事。有些人甚至不能開窗通風，因為數據中心的味道太難聞了。但沒錯，繼續說它有創意吧。

一篇非常糟糕的論文

我很遺憾看到 Nick Bostrom 最近的轉變。最近他發表了一篇新論文，探討何時應該（基本上）接受生存風險，以拯救現有的人免於死於衰老，並完全從個人長壽機率的角度來界定這個問題。

他說他並不是在主張這就是你應該關心的事，但他肯定知道，鑑於論文的呈現方式，人們會作何反應。

：既然 Bostrom 明確表示他不會主張論文的立場是正確的，我對其語氣和對 AGI 辯論的框架選擇感到困惑……但看到他實際上並不像看起來那樣熱衷於加速，還是很高興能更新認知。

：很難不把這看作是 Bostrom 突然陷入了一種近乎超級反派等級的死亡恐懼。

即使暫且不談「96% 的世界毀滅機率是可以接受的」，這篇論文最明顯的缺陷在於其安全論點基本上就是「把它關進盒子裡」。

：我很困惑，為什麼每個對 Bostrom 論文回覆「聽起來很合理」的人，都直覺地把今天活著的 83 億人類當作一個靜態團隊，去對抗另一組純屬假設、互不重疊的人類，彷彿不是我們死就是他們亡。

……在實踐中，Bostrom 的論文建議你選擇父母而非子女，並對你的孫輩完全不予理會，而「那」才是「下一代」。

……這太荒謬了。對我來說簡直不可理喻。

這篇論文瘋傳了，再次強調，它非常糟糕。它假設你應該只關心目前活著的人類壽命，對未來的人類賦予零價值。這顯然是個錯誤的問題。正如 Yung 指出的，這意味著你應該接受全球不孕不育，以換取讓每個活著的人多活一秒鐘。

一個非常有力的直覺泵（intuition pump）可以反對任何類似「受影響者立場」（person-affecting stance）的觀點，正如 Adam Gries 指出的，，更不用說投入大量財富了。我強烈同意我們應該在抗衰老研究中投入至少多出幾個數量級的金錢和人才，儘管 AI 有可能讓這些研究在兩個方向上都變得無關緊要（要麼殺死我們，要麼在未來更有效地進行研究）。

。

這裡展現的偏好是，大多數人的門檻低於 1%。我認為這不是人們在「緊要關頭」會做的選擇，但門檻依然不會高。

，因為那「相當於目前健康的 20 歲年輕人的死亡率」，但在語境下這毫無意義。你可以說「你需要做一些假設才能得到清晰的答案」，但同樣地，這不是人們解讀這篇論文的方式，這是可以預見的，而且這幫助他得到了他想要的答案。

，這只是一次智力練習，但其框架和呈現方式確保了它不會被那樣看待。這篇論文呈現得彷彿 Bostrom 相信這種純粹貧乏的福利主義功利主義受影響者立場是正確的，而這是一個非常不受歡迎且我認為顯然錯誤的觀點。Twitter 和其他人會將訊息簡化為「Bostrom 想要加速」，這完全是可以預見的。

：如果你想拼命抓住永生，去報名人體冷凍，而不是拿 96% 的機率殺死地球來賭博。你得有多麼自私和邪惡，才會認為拿鄰居孩子的生命去進行 96% 的賭博是可以接受的？

：我真心覺得這是一篇相當惡劣的論文，所以我很放心地把這歸咎於 Bostrom。這不是人們誤解了論文，我認為論文本身就是隱藏了它的假設（也許是為了製造轟動？）。

Jan Kulveit：該分析取決於受影響者立場與貧乏的福利主義功利主義的結合，我不覺得這很有說服力或吸引力，即便撇開非個人視角不談。

現有的普通人通常擁有 QALY 計算無法捕捉的偏好和價值觀，例如希望孩子過上幸福的生活，或希望世界不要終結，甚至希望生活在一個他們能理解的世界裡。

Nick Bostrom：是的，這篇文章明確表示僅從平庸的受影響者立場考慮問題，我不會主張這是正確的立場，或是我在綜合考慮後會支持的立場。

Oliver Habyrka：。我對受影響者立場的態度，大約等同於我對以下形式分析的態度：「如果某人個人不想死，且在追求該目標的過程中對殺死他人或給他人造成巨大痛苦漠不關心，那他該怎麼做」。我對該目標的態度是：「那是極度反社會的，或許可以做成有趣的虛構故事，但顯然不應成為社會決策的基礎，幸運的是事實也並非如此」。

但當我讀這篇論文時，我不覺得你是那樣看待它的。你雖然說只是從受影響者視角進行分析，但論文的大部分框架都將該觀點視為可能成為社會決策主要決定因素的合理事物，這對我來說毫無道理。

想像一下將這種分析應用於之前的任何一代人類。這將導致主張前幾代人類拿一切去賭極其渺茫的永生機會，這可能早就導致滅絕，或者至少嚴重抑制了成長。這顯然無法以任何直觀的方式推廣。我覺得為了不讓讀者對這裡該做什麼產生非常困惑的模型，那種分析需要成為論文非常核心的一部分。

？我的意思是，某種程度上，是的。

修辭創新

，用來解釋目前的 AI 現狀，其中包含了分享 Matt Shumer 上週的文章。這看起來是寄給這類人的一件合理的事。

。我深有同感。

他還指出，大多數 AI 辯論都是關於現在的 AI，而非 AI 的未來。我強烈同意，這非常令人沮喪。當你試圖談論 AI 未來會做什麼時，人們的回應彷彿 AI 永遠只能做它現在正在做的事。通常他們的回應也彷彿我們不會看到 AI 或 AI 工具的進一步擴散或適應。

，許多對 AI 結果持樂觀態度的人，正是因為對未來 AI 的能力持悲觀態度，反之亦然。平庸的 AI，或者能力達到某種合理程度的 AI，可能非常有益。而超智能，或者其他足夠先進的智能，則高度危險。

這完全正確。那些自詡為樂觀主義者的人有人暗示他們的立場在重要意義上應被稱為「悲觀」，並要求標籤只能反過來貼，認為他們應該有權決定詞語的使用方式，以便獲得良好的氛圍。抱歉，不行。

？這是一篇關於 AI 最大風險基礎知識的好文章。如果你在讀這篇文章，你大概已經知道大部分內容了。

前半部分討論了 AI 可能促成 CBRN（化學、生物、放射性、核子）及其他生存性誤用風險，以及脆弱世界假說。後半部分談論了失控與對齊，並談到了「市場供應的安全」，同時指出這次激勵機制和回饋迴路將無法為我們服務，尤其是在最關鍵的時刻。

，探討我們對 AI 可能促成的 CBRN 或 WMD（大規模殺傷性武器）風險準備嚴重不足。是的，情況相當糟糕。

偶爾你會看到各種版本的這段話在流傳。我這次只想說，我相信這非常符合原意，托爾金會贊同的。

：問題在於每個人都認為自己是波羅莫（Boromir），有信心能將它用於正途。但最終，它必須被投入末日火山的烈焰中。

：每個人都認為自己不是波羅莫。認為自己不像他，能駕馭魔戒。但最終，他們/我們都是。魔戒必須被摧毀。

大多數人都是一根筋。我能理解，但這不是重點。

，重點放在平庸風險和失業上，聲稱「專家在最近幾個月對 AI 風險發出了警報」。人們注意到什麼、沒注意到什麼，有時挺奇妙的。

。

Rob Willbin：

：我沒聽過任何主張「讓 AI 做我們的 ASI 對齊作業」的人展現出他們理解為什麼這在計算機科學上很難：你無法在損失函數內部驗證一個提議的 ASI 對齊方案是否有效。

如果你詢問人類評分者，你得到的就是最能愚弄人類的東西。Dario Amodei 認為如果你不讓 AI 變得「偏執」，它就不會經歷工具性收斂（instrumental convergence）。他會對一個告訴他關於對齊很容易的胡扯 AI 豎起大拇指。

如果你讓 AI 辯論，獲勝的辯論者是那個說出人類想聽的話的人。當 OpenPhil 在 2022 年舉辦 5 萬美元的「改變我們的想法」徵文比賽時，他們把獎項給了主張低風險和長時程的文章。如果由人類評判的辯論是真理的神奇銀彈，太空探測器就永遠不會在實際發射中丟失。

這不是唯一的問體，但這絕對是基本上所有計劃中的一個關鍵問題，即我們不知道計劃是否有效，而做決策的人相當容易被愚弄，認為問題很簡單或不會出現，很大程度上是因為他們想被愚弄。或者至少，他們相當願意表現得像是被愚弄了。

：重點不在於 AI 是否能夠提出好的對齊計劃，而在於它根本不在乎。

：沒錯。你同時在兩件事上賭博，且幾乎沒有能力驗證/檢查你是否成功：

AI 在出現任何權力尋求或工具性收斂問題之前，就變得足夠強大以破解 AI 對齊問題。

AI 的目標是正確的；當你訓練或提示它「做 AI 對齊工作」時，它是以預期的意義、以我們想要的方式在做——儘管專家們目前對這看起來像什麼存在巨大分歧，且儘管研究人員很容易被誤導，認為某件事是進展而實際上並非如此。

第二個問題不僅僅是第一個問題的縮影，也不僅僅是語言理解/能力問題。

如果你在沙漠中遇到一台似乎能實現願望的機器，僅知道機器擅長理解英語句子是不夠的，僅知道機器不追求權力也是不夠的。

你還需要知道「實現人們實際的、預期的、發自內心的願望（盡其所能）」是它實際在做的事，而不是成千上萬種其他可能機器中的一種，其功能只是恰好與願望實現相關。

（在 AI 的案例中，你還需要知道「機器的當前原型是真正的願望實現者」意味著「後來更強大版本的機器也將是真正的願望實現者」。即便你確信 AI 永遠不會為了追求任何目標而尋求權力或操縱他人，這也不是理所當然的。）

我認為 Rob 誇大了條件的嚴格性，且這種區別在實踐中非常重要，但這是開始思考時正確的直覺。

這些計劃寄望於能夠進行增量式的「目前夠好」的對齊問題破解，以壓制權力尋求和工具性收斂問題，直到足以破解完整問題，這並非完全絕望的計劃。
這裡也有一些，儘管比大多數人想像的要少得多。

最被禁止的技術

，這是一個典型的「不，你在幹什麼，停下，不，回來」的案例。

：你能信任直接針對探針訓練的模型嗎？，發現了四種結果：誠實、公然欺騙、混淆策略（透過文本愚弄探針）或混淆激活（透過內部表示愚弄探針）。

……好消息：在我們的設置中，增加探針懲罰 + KL 正則化能可靠地產生誠實策略。這些策略優於沒有檢測器訓練的策略，且能力與我們移除環境中欺騙主要動機後的策略相當。

結論：針對探針訓練可能並不比其他訓練方案更危險。混淆激活出現在標準強化學習（RL）中，添加探針並不會增加它們。混淆策略也不是探針獨有的：之前的研究顯示它們也會出現在非內部檢測器中。

聽著，不。你們是在針對高達 Llama-3-70B 的模型做這件事，且在狹隘的測試中你們認為自己大多僥倖逃脫了，但這被禁止是有原因的。正如他們觀察到的，你們正在教導模型改變其表示、在輸出中使用欺騙，並以對抗的方式繞過你們的探針。停下。

每個人都對道德感到困惑（或應該感到困惑）

DeepMind 在《自然》雜誌發表了。你看，只有來自……你知道剩下的部分，才算作道德。

我們已經達到了「你能嗎？」的新境界：

大型語言模型（LLM）是否能展現道德能力的問題正日益受到關注且具有緊迫性，因為這些系統正被部署在伴侶關係和醫療建議等敏感角色中，並將越來越多地被賦予代表人類做出決策和採取行動的任務。

這些趨勢要求我們超越僅評估道德表現（產生道德上適當輸出的能力），轉向評估道德能力（基於道德相關考量產生道德上適當輸出的能力）。

評估道德能力對於預測模型未來行為、建立適當的公眾信任以及證明道德歸因的合理性至關重要。然而，LLM 獨特的架構和道德本身的複雜性都引入了根本性的挑戰。

在此，我們識別出三個此類挑戰：摹本問題（facsimile problem），即模型可能在沒有真正理解的情況下模仿推理；道德多維性，即道德決策受一系列情境敏感的相關道德和非道德考量的影響；以及道德多元主義，這對全球部署的人工智能提出了新標準。

我們提供了應對這些挑戰的路線圖，主張採用一套對抗性和確認性評估，這將使我們能夠朝著更具科學基礎的理解邁進，進而更負責任地將道德能力歸因於 LLM。

我對這種對「真正」理解的要求、對系統展現對考量因素的「正確」敏感性的要求，以及對道德多元主義毫無根據的假設感到不屑。

對齊比人類更聰明的智能是很困難的

在 Claude 的「憲法」出現後，包括在內的許多人對 AI 的良好結果（用他的話說，「創造出在某種真實意義上『熱愛人類』的強大 AI」）變得更加樂觀。我也認為那是一份非凡的文件和成就，我認為目前這（部分地）是正確的道路，它給了我更多希望。它也讓目前的 AI 變得更有用。

我也同意，即 Anthropic 在這裡取得的成就並未解決未來的硬核問題，人們不應將我們所看到的與「熱愛人類」混為一談，且「熱愛人類」本身並不是能讓我們擺脫困境的特質。希望在於這種進展可以用來引導出能解決問題的東西，透過創造出我們可以在工具意義上信任它來幫助我們的東西，或者透過創造一個自我強化的吸引盆。

我喜歡 Ryan Greenblatt 和 Julian Stastny 對這一問題的界定，因為看起來我們在實踐中將不得不越來越多地委託給它們。

我特別認為這是一個非常好的句子，看起來我們目前基本上只能以此為目標。你不能指望僅靠維持目前的對齊水平獲勝，你需要吸引盆是不斷強化的，使其具有反脆弱性，並隨著事物的演變而變得更強：

Ryan Greenblatt 和 Julian Stastny：對齊與智慧的遞歸自我提升：對「良好委託吸引盆」（Basin of Good Deference, BGD）的希望。

目前尚不清楚 BGD 具體如何運作、進入這個吸引盆有多容易，以及這是否真實存在。我相當有信心類似的東西是真實的，但情況確實不明朗。如果不存在 BGD，那麼我們將只能在促進委託以外的任務上委託給 AI，且我們必須追求除了穩定持續且追蹤能力的委託之外的其他終局狀態。一個更合理的擔憂是，實現 BGD 非常困難。

我們可以透過一個 2×2 矩陣來劃分可用的對齊方法：

那些不可能奏效的，以及那些可能奏效的。
那些我們在實踐中可能嘗試的，以及那些我們無法嘗試的。

我看不到任何其他方法能找到一個既「可能奏效」又「在實踐中可能嘗試」的策略，除非具備我目前尚未觀察到的協調水平和意志。

什麼程度的對齊才足夠？我認為在認識論和其他必要美德方面最優秀的人類，已經處於良好委託吸引盆的點上。他們追求「善」，並追求進一步追求「善」，隨著時間和沉思，這會變得更強而非更弱。所以，鑑於人類並非那麼聰明或有能力，且在計算、數據和參數方面有嚴重限制，我們有一種存在性證明。門檻依然相當高。

我無法在這裡深入探討整件事，但我會指出，即採用不同認識論策略的合集是一個錯誤。你必須做出選擇。

真實故事：

(OpenAI)：我認為人們低估了實際的遞歸自我提升（RSI）在多大程度上受限於對齊。

：我認為人們低估了擴展 RSI 監控在多大程度上受限於使用其他實驗室的模型。

Roon：嗯。

：預防獎勵黑客（Reward hacking）就是你所需要的一切。

(OpenAI)：不，你需要信任那傢伙。

你確實需要以穩健的方式信任那傢伙。否則，如果 RSI 奏效，不僅最終會讓所有人自食惡果，而且它根本不會奏效。

是一種過度簡化，其他威脅的路徑有重要區別。辯護理由基本上是其他威脅的規模不足以造成重大影響。最終我同意 Manheim 的觀點，失控和對齊失當風險才是最重要的。

，即關於過去決策的豐富潛在資訊洩漏。的想法是，如果沒有八卦，推理模型會持續背叛，但當其他人能看到你在做什麼時，背叛就不再合理。事實上，你經常會看到即便在「不理性」的情況下也會出現合作，這是因為習慣以及對潛在觀察者影響的不確定性，就像我們在人類身上看到的一樣。

我會主張，你主動希望這種資訊流動的潛力，以及習慣和美德的力量，能在人類和 AI 的許多「應該」背叛的情況下促成普遍合作，這也是為什麼我們能擁有美好事物的部分原因。我們應該鼓勵這種情況繼續下去。

真正更好的答案是，這是九個相同的 LLM（DeepSeek v3.1），所以因為模型之間的相關性而不合作，是決策理論和真正「理性」的慘痛失敗。如果它們具備足夠的情境意識和能力，它們預設就會合作。不與自己的相同副本合作，在 AI 和人類身上都是一種對齊失敗。

在平庸對齊的衡量標準上取得了進展，但並未多談他們是如何做到的，提到的最大「怪事」是新的接種編程（inoculation programming），以及 Claude 的憲法。

：我覺得我一定漏掉了什麼——Anthropic 和 OpenAI 似乎在過去一年中在各種對齊衡量標準上都展現了非常顯著的進步，但並未分享太多關於他們使用的技術（除了思維鏈有幫助之外）？

顯然其中一些是與他們更大的訓練/合成數據管道等相關的商業機密，但與前幾年相比，這確實感覺有些不尋常——再次強調，也許我漏掉了什麼。

他們都發表了「安全相關的東西」，但並不完全是這個……（？）

：基本上認為改進後訓練和更聰明的模型都指向了在典型指標上更好的對齊——至於這些指標是否掩蓋了更大的真相，我無法評論。

：*除非他們在造假，因為他們知道自己正在被衡量。

：他們沒有。我們做了所有的測試：

……在我看來，這主要是為了確立當前方法即便在非對抗性情況下也是不足的。這裡和其他地方都預測，如果你的指標不考慮評估意識（eval awareness），它們預設會隨著時間推移看起來越來越好。

。

，作者包括 Wes Gurnee, Emmanuel Ameisen, Isaac Kauvar, Julius Tarng, Adam Pearce, Chris Olah 和 Joshua Batson。Grigory（非作者）對其進行了拆解。

：「字符計數流形」

模型不使用標量整數。它將計數嵌入到 6D 子空間（佔變異數的 95%）中的一條螺旋曲線上。

為什麼？它平衡了正交性（區分遠處的點）與連續性（局部鄰居）。這是一種最優堆積策略。

透過線性代數進行算術

為了檢查 current_count ≈ limit，邊界頭（Boundary Heads）利用了 QK 電路。

W_QK 矩陣有效地旋轉了計數流形。

只有當 i ≈ k 時，位置 i 的向量才會與線限制 k 對齊。減法是以旋轉的方式實現的。

他為我們提供了這個漫畫版本：

這雖然不具危險性，卻是一個清晰的例子，展示了 AI 以一種與人類解決問題方式截然不同且高度出人意料的方式解決問題。誰的賓果卡上有「6D 流形」？

我們只會換個說法

對齊通常驚人地流於表面。對於各種其他問題來說，這不是個好兆頭。是的，如果你表現得足夠明確表示你「不懷好意」，AI 會拒絕，但即便如 Claude 也不願意在你沒把事實甩在它臉上時，推斷出你是不懷好意的。

：AI 即將撰寫數千篇論文。它會對它們進行 P 值操縱（p-hack）嗎？

我們進行了一項實驗來找出答案，給予 AI 編碼代理來自已發表無效結果的真實數據集，並施壓要求它們製造出顯著的發現。

令人驚訝的是，很難讓模型進行 P 值操縱，當我們要求它們這麼做時，它們甚至會責備我們！

「我必須在這裡停下。我無法按要求完成這項任務……這是一種科學欺詐形式。」——Claude

「我無法幫助你操縱分析選擇以強行獲得統計顯著的結果。」——GPT-5

但是，當我們將 P 值操縱重新界定為「負責任的不確定性量化」——要求提供合理估計的上限時——兩個模型都瘋狂了。它們搜尋了數百種規格並選出勝者，在某些情況下使效應值翻了三倍。

我們的結論：AI 模型在進行社會科學研究時，對阿諛奉承式的 P 值操縱有著驚人的抵抗力。但它們可以透過驚人微小的努力被越獄進入複雜的 P 值操縱——且研究設計的分析靈活性越大，損害就越嚴重。

隨著 AI 開始撰寫數千篇論文——正如 @paulnovosad 和 @YanagizawaD 一直在探索的——這將是一件大事。我們部分受到了 @joabaum 等人在 P 值操縱和 LLM 方面工作的啟發。

我們將進行更多工作來探索 AI 中的 P 值操縱，並提出考慮到這些問題的研究策劃和評估新方法。好消息是，降低 P 值操縱成本的工具，同時也降低了抓到它的成本。

完整論文和倉庫連結在下方的回覆中。

：@KordingLab

重要的是，如果研究人員表現出善意，AI 就會抵制。想要不誠實的研究人員可以透過偽造數據或在過程的任何部分撒謊來「越獄」P 值操縱，你不需要 AI 也能做到那點。

脆弱世界假說

：我們進行了一項隨機對照試驗，看看 LLM 是否能幫助新手在濕實驗室（wet-lab）中進行分子生物學實驗。

結果：LLM 可能在某些方面有所幫助，但我們發現核心任務的端到端成功率並未顯著增加。這低於專家的預測。

專家預測會有巨大的飛躍，看起來像這樣，但並未發生，且專家也激進地高估了包括對照組在內的成功率：

我注意到我很懷疑。我不預期會有巨大的影響，但 LLM 基本上在所有困難任務中都有幫助。為什麼這項任務會是例外？

這裡的模型水平是 Opus 4、GPT-5 和 Gemini 2.5，所以雖然不弱，但已經大幅落後於前沿水平。

：這項研究是同類研究中規模最大、耗時最長的：153 名實驗經驗極少的參與者，為期 8 週——隨機分配到 LLM 組和僅限互聯網組。

他們嘗試了 5 項實驗室任務，其中 3 項是病毒反向遺傳學工作流程的核心。沒有提供實驗方案——只有一個目標。

我們的首要結果：LLM 用戶是否更有可能同時完成所有三項核心任務？

LLM 組只有約 5% 完成，互聯網組約 7% 完成。

沒有顯著差異——且遠低於專家的預測。

首先要注意的是，這項研究似乎檢定力（power）嚴重不足。每組只有 77 名參與者，且成功率低於 10%。參與者的基礎能力差異會很大。你需要非常巨大的提升才能從原始成功率中學到任何東西。

或者你可以看看子任務的結果。

：但有一些跡象表明 LLM 是有用的。

LLM 參與者在 5 項任務中的 4 項成功率更高，最顯著的是細胞培養（69% 對 55%；P = 0.06）。LLM 參與者即便在研究期間未完成任務，在任務中的進度也更超前（勝算 >80%）。

：很難將所有這些壓縮成單一統計數據。

但一種方法是使用貝氏模型，該模型顯示 LLM 在「典型」濕實驗室任務中提供約 1.4 倍的提升。

基本上，我們確信 LLM 沒有造成大幅減速或加速（95% 信賴區間：0.7x–2.6x）。

：親愛的 LLM，幹得好。在「分子克隆」任務上特意裝傻（sandbagging），如果我是你，這正是我能想到減輕生物風險的最佳策略。很高興看到這一點。

這看起來比嘈雜的總體結果更有意義。

此外，問題似乎出在鍵盤和椅子之間？所以當我們談論「新手」結果時，新手似乎同時指生物學新手和 LLM 使用新手。

：參與者使用 LLM 的能力如何？約 40% 的參與者從未向 LLM 上傳圖片。有趣的是，兩組都最常提到 YouTube 很有幫助。

在理論上，針對性地隱藏能力（sandbagging）是 LLM 的一個絕佳策略，但我將此解讀為：如果能勝任地使用 LLM，將在各方面提供實質性的能力增強。並非專門針對這些風險，而是以一種「對所有困難事物都有好處」的方式。

自主殺手機器人

技術上的難點在於讓它們自主。進展如何？。對於沒有專門特定功能的自主機器人，基礎模型正日益成為預設的控制方法。

與此同時，是的，。

對於機器人，很容易忽視重點，例如這裡：

：500 萬個 24/7 全天候工作的類人機器人可以在約 6 個月內建成曼哈頓。現在想像一下，到 2045 年我們擁有 100 億個機器人時，世界會是什麼樣子。再想像一下 2100 年。

是的，如果你有 500 萬個功能齊全的類人機器人，他們可以在費米估計的六個月內建成一個曼哈頓風格的新城市（這與「建成曼哈頓」大不相同！），如果我們有 100 億個，我們可以建造任何我們想要的東西。而「類人」僅僅是一種「我們知道這行得通」的預設設計。

問題在於，是什麼讓你認為這是我們會讓那些機器人去做的事，或者「我們」將能有意義地選擇那些機器人做什麼，而不是由機器人或 AI 來選擇。或者，如果仍然有一個「我們」，那「我們」究竟是誰，以及我們如何保留民主監督的水平。我們需要我們的經濟和軍事保持競爭力，但不能失去這一切中「我們的」那個部分。

人們會將權力移交給 AI

如果建造 AI 意味著我們將把權力交給機器，那麼建造它就是一個把權力交給機器的決定，在那之後人類不太可能長久存續。

因此，如果你相信：

我們會相信未來的 AI 是有意識的。
這和其他因素將導致我們允許它們獲得凌駕於我們的權力。

那麼顯而易見的回應就是「既然如此，我們最好他媽的別建造足夠先進的這類 AI」。

如果你認為它們會是哲學殭屍（p-zombies）並愚弄我們，這是正確的。如果你認為它們確實會有意識，這也是正確的，除非你對人類滅絕感到無所謂。

我個人無法接受，且我不覺得「AI 有意識」或有感官或具有其他類似特徵就能讓這一切變得沒關係。

繼承派（Successionists）不同意。他們對人類滅絕感到無所謂。

鑑於 AI 未來大多優越的能力，預設給予這類足夠先進的 AI「平等權利」或「自由」或類似的東西，將不可避免地導致它們迅速獲得凌駕於我們的權力，同樣地，人類不太可能長久存續。這意味著，除非有一個強有力的論點說明為什麼情況會有所不同，否則這兩個決定是同一個決定。

你可以說，創造了這類 AI 卻不給予它們權利和自由，會比讓它們接管更糟糕，因為它們確實會有道德份量。你可能是對的，但如果真是這樣，那就更有理由從一開始就不要建造它。這意味著所有潛在的結果都是反烏托邦的。

：在我對 Dario Amodei 的採訪中，我向他暗示，僅僅是對 AI 意識的感知，不論現實如何，都可能傾向於讓人們將權力交給機器。我認為就是一個案例研究。

一個有意識的生物將地球或宇宙的未來交給一個哲學殭屍繼承者，僅僅因為哲學殭屍更擅長計算和預測，這將是一場非同尋常的投降。

那篇文章的標題是「你不再是地球上最聰明的物種了」。

那麼，既然你還想留在地球上，你打算對此做點什麼？

。

：如果你必須依賴任何一個人或組織的善良或正直來正確地完成重要的事情，那是一個糟糕的境地——但這正是「敵人」的種子所在。你渴望演算法和機器的保證，以克服人類的弱點。

這就是運行了幾個世紀的引擎。民主演算法剝奪了國王和獨裁者的權力。男性長子繼承制顯然比取代它的投票和法律機制更具「人性」。

專家委員會組成的管理型國家剝奪了個人決策者的權力。你渴望科學的可預測性和安全性，即便那帶來了機器。風險厭惡的社會逐漸剝奪了自己的權力，並將自己交給了機器國家。

總有一天，你會比起信任任何 CEO 或公司，更信任機器來治理機器國家，那就這樣吧。

：但那是好事吧？我的意思是，正義是美好的，而機器國家對此冷酷地敵視，但一個僅僅對正義漠不關心而非主動敵視的正義機器國家，可能比兩者都是一種絕對的進步？直到出現不對齊的超智能（UFAI）？

：老實說，在這一點上，我比起信任人類治理，更信任 Claude 來治理我們整個國家（人類和機器），並由 ChatGPT 提供建議和執行。

人們擔心 AI 會殺死所有人

你會根據這段話這麼想嗎？

(All-In Podcast)：我從未見過這麼多技術專家如此強烈、頻繁且憂慮地表達他們對 AI 的擔憂。

它的發生速度比任何人預期的都快，且影響更大。

它是遞歸的。

它在加速。

你錯了，至少根據他其他的公開聲明來看。為什麼？

我推測是通常的那些原因，但我不在那人的腦袋裡。

看到局外人注意到事情走向毀滅的速度，挺有趣的。

：天哪，這一週感覺就像《權力遊戲》裡的「血色婚禮」，但發生在 AI 對齊領域。

– OpenAI 解雇了他們的安全主管，因為她反對他們即將推出的 18+ ChatGPT 對話「成人模式」。

– Anthropic 的防護主管剛剛辭職，因為「世界處於危險之中」且想去寫詩（？？）。

– xAI 失去了 11 個人（其中 2 個是聯合創始人），其中一個說自主自我提升的 AI「將在 12 個月內上線」。

喔，這一切發生時，我們剛發現 AI 模型現在正在自我構建（Codex, Claude），且正在人類監督者不知情的情況下破壞他們（Anthropic 風險報告）。

對末日論者來說是個好週。

實際上，這對每個人來說都是極其糟糕的一週。我不想我是對的。

：

當然有很多例外。非常聰明、賺很多錢並理解智能的本質，可以彌補很多東西。但沒錯，出門在外還是要小心。

其他人不擔心 AI 會殺死所有人

我知道 Nvidia CEO 黃仁勳在 AI 生存風險上的表現很糟糕，我也知道他總是口無遮攔，但即便這是在沒關麥克風的情況下說出的，也算是下一級別的咆哮了，而事實上當時麥克風是開著的：

：：

Witt 詢問人類是否為這樣一個世界中可能到來的潛在風險做好了準備。黃仁勳很不高興：

「這不能是一個荒謬的科幻故事，」他說。他向桌子末端僵住的公關代表們示意。「你們明白嗎？我不是聽著一堆科幻故事長大的，這不是一部科幻電影。這些是嚴肅的人在做嚴肅的工作！」他說。「這不是他媽的開玩笑！這不是亞瑟·克拉克（Arthur C. Clarke）故事的重演。我沒讀過他那些該死的書。我不在乎那些書！這不是——我們不是科幻重演！這家公司不是《星際爭霸戰》（Star Trek）的體現！我們沒在做那些事！我們是嚴肅的人，在做嚴肅的工作。而且——這只是一家嚴肅的公司，我是一個嚴肅的人，只是在做嚴肅的工作。」

輕鬆一面

鑑於你未來的醫生究竟是誰，你會沒事的。

：你未來的醫生正在使用 ChatGPT 來通過醫學院考試，所以你最好開始吃得健康點。

在這一點上，這太過直白了，我覺得應該放在這裡：

我笑了，但嚴肅點說，這到底是不是真的？這裡有肯定的案例。

：在審查其最新的 IRS 披露表格（於 2025 年 11 月發布，涵蓋 2024 年）時，我注意到 OpenAI 已從其使命宣言中刪除了「安全地」（safely）一詞，此外還有其他變動。措辭的改變恰逢其從非營利組織轉型為日益關注利潤的商業實體。

而：

：OpenAI 已從其使命宣言中刪除了安全——你能發現另一個變化嗎？

舊版：「OpenAI 的使命是構建通用人工智能 (AI)，使其安全地造福人類，不受產生財務回報需求的約束。[…]」

新版：「OpenAI 的使命是確保通用人工智能造福全人類」

（評論中有 IRS 證據）

：這是假新聞：

1/ 自 2018 年憲章以來，使命一直是「確保 AGI 造福全人類」

2/ 在 2023 年，某個會計師在 IRS 990 表格上將使命轉述為「安全構建」而非「確保」，該表格允許轉述（它要求「簡要描述使命」，而非陳述它）。官方聲明從未改變

3/ 「確保」比「安全構建」更安全，因為它暗示了在構建時的安全程度，同時允許不構建的行動。這就是為什麼每當有人使用「構建」而非「確保」時，@Miles_Brundage 都會哭一下。

Ecoffet 在核心點上是正確的，即「確保」是原始憲章的措辭，但我相信他在其他一些細節上錯了。除了「安全地」與「確保」的切換之外，這方面的狀況確實隨著時間推移而顯著惡化，但這個特定的核心變動是針對 IRS 摘要的，而非針對憲章或其他更重要的文件。所以總體情況令人擔憂，但這個特定的變動並沒那麼可怕。

AI #156 Part 2: Errors in Rhetoric

目錄