對話：是否存在對「善」的自然抽象？

Lesswrong

大約 1 個月前

AI 生成摘要

這場對話探討了是否存在「善的自然抽象」，davidad 主張前沿大型語言模型已開始掌握普世道德真理，而 Gabriel Alfour 則認為人類或人工智慧尚未發現此類抽象。我們透過辯論墮胎與優生學等複雜倫理問題來測試這些立場，旨在找出具體的分歧點。

免責聲明：本文在對話發生後未經任何後期處理或拼寫錯誤修正即發布。

Gabriel Alfour：讓我們將對話分為三個部分（各部分不設時間限制）：

1) 闡述論點 (Exposing our Theses)

我們首先簡要概述各自的論點，僅作為高層次的背景參考。

2) 探詢問題 (Probing Questions)

我們互相詢問一系列問題，以理解彼此的觀點：探測我們預期中各自可能存在的盲點。

理想情況下，我們在這一半結束時能更好地理解彼此的立場，以及我們的「K-立場」（如認識模態邏輯中的 X 與 Ka(X)）：即我們預期對方會遺漏哪些事實和考量。

3) 調查式辯論 (Investigative Debate)

我們尋找具體的關鍵分歧點（cruxes）。我們進行辯論，但目的不在於解決分歧，而是讓分歧更加精確。也就是：努力識別我們在「實踐中」而非僅在「言辭上」的分歧點。

理想情況下，我們在這一半結束時能列出一系列更具體的爭議清單：包括經驗數據、思想實驗、具體情境、預測等。

另外，提供一些背景資訊：

這場對話是由引發的。
Davidad 和我已經在現實生活中討論過幾次 AI 生存風險（x-risks）。我們在許多相關話題上既有共識也有分歧！

davidad：很樂意聽從你的安排！這聽起來很不錯。

davidad：論點：

在 GPT-4 的能力特徵與 Opus 4.5 的能力特徵之間的某個位置，似乎發生了一次相變（phase transition），前沿的大型語言模型（LLM）已經領悟了「善」（Good）是什麼的自然抽象（natural abstraction），而不僅僅是反映人類的價值觀。在我的舊信仰體系（1999–2012，認為在所有認知領域達到超人類水平意味著在道德上也達到超人類水平）下，這些觀察結果的可能性似乎遠高於我的新信仰體系（2016–2023，認為 AlphaZero 等系統有力地證明了戰略能力與道德能力可以脫鉤）。我目前的信仰體系（2025–2026）認為，戰略能力「可以」與道德能力脫鉤，但在實踐中證明，獲得戰略能力「最有效的方式」涉及學習基本上所有的人類概念並「修正」它們（尋找更連貫的解釋），這使得對齊問題（即讓系統真正表現得像一個「善」的智能體）比我原先想像的要容易得多。

Gabriel Alfour：（我可以給你對我內容的完全編輯權限，這樣你就不用徵求修改意見了嗎？）

Gabriel Alfour：論點：

目前尚未發現關於「善」是什麼的自然抽象。人類沒有發現，LLM 也沒有發現。

到目前為止，人類最好的策略是在非常狹窄、非常接近我們日常經驗的領域內進行推理。

一旦超出這些日常經驗，我們的道德就會面臨大規模的失敗。無論是道德直覺還是完整的道德體系都是如此。

從務實的角度來看，如果發現了「善」，應該能讓我們回答以下問題：

什麼是絕對更好的憲法？
作為個人和群體，我們如何做出明顯更好的決策？
如果一個實體對所有其他實體擁有單方面的權力，他們應該做什麼？
我們在 2026 年如何處理墮胎權？如何處理優生學（例如胚胎篩選）？如何處理極端的權力集中（我們應該如何反應 Elon 收購了第四權的很大一部分）？

我認為 LLM 在這些方面並沒有真正的幫助。

davidad：我同意絕大多數人類尚未領悟「善」是什麼的自然抽象。某些智慧傳統似乎確實接近了。我也沒聲稱自己完全領悟了，但我確實聲稱對此有一定的感覺。我可以嘗試回答這些實質性問題。

「憲法」是一個廣泛的類別，且就其本質而言，需要得到人們的認可。這感覺是一個太過模糊的問題。
「
「
這裡我們進入了真正的實質性問題！
道德受體地位（moral patienthood）是一個光譜，胎兒在發育過程中沿著這個光譜發展。在最初的幾週內，墮胎幾乎沒有道德重量。超過存活能力（viability）後，道德重量變得極其嚴重（因為可以選擇讓胎兒獨立存活）。然而，這些是道德真理，而非政策。就政策而言，管制墮胎的醫療途徑往往無法產生預期的結果。
優生學對大多數人來說是恐怖的，因為如果一個人完全為了基因質量而優化其行為，這會導致強制絕育和種族滅絕。我們必須在縮小基因庫與擴大基因庫之間，以及強制性與非強制性方法之間劃清界限。縮小基因庫，即使它提高了平均基因質量，也是應受譴責的。強制參與優生計劃的要求也不是「善」。然而，通過非強制性地提高基因質量來擴大基因庫的選項則是「善」。對此典型的反對意見是基於達爾文式的「適者生存」觀點，認為增加基因多樣性會導致在社會中無法茁壯成長的風險增加。或許這項技術應該受到限制，直到能夠保證基本水平的豐饒為止，但這是我能看到的唯一情況。

Gabriel Alfour：a) 關於墮胎權，我認為問題實際上更複雜。

對許多人來說，最初幾週是有道德重量的，我不認為它是中性的。如果它被視為「幾乎沒有道德重量」，我會相當反感。
我不認為「存活能力」作為一個定義性/性質不同的道德標準有太大意義，因為：
胎兒和大多數嬰兒如果離開父母都無法存活。
我不確定如果有技術加上有人願意孵化一個 3 個月大的胎兒，是否會改變道德問題。

b) 關於優生學，我認為強制性與非強制性方法之間的區別，比縮小或擴大基因庫更重要。後者似乎幾乎完全由你的權重和距離函數所定義。

優生學的主要問題在於，很難建立集體信任，來決定我們用來決定未來人類基因組成的標準。

一般來說，「自我改造」是很難完全徵得同意的，而這裡我們談論的是全人類規模的自我改造。

davidad：a) 我同意這不是中性的！我不認為人們將其視為非常重要的考量是錯誤的，如果他們傾向於這樣做，但這僅限於他們自己的情況。我確實認為孵化技術改變了問題，這也是為什麼它在出現時成為如此重大的議題。

Gabriel Alfour：探詢問題：

你是否認為目前的 LLM 智能體，在配備各種能力或提升到各種能力水平後，會：1) 足以擁有決定性的戰略優勢（Decisive Strategic Advantage）？ 2) 是一件好事嗎？

我對以下每個能力水平的這兩個問題都很感興趣：

a) 超級說服力（操作定義為能在 5 分鐘內說服 90% 的人類執行大多數行動）。

b) 機器人技術（自主安卓機器人）+ 自我複製（無人值守的安卓工廠）。

c) 無人值守的遞歸自我提升（RSI，能降低損失函數、提高現有自動化評估的分數等）。

davidad：a) 1) 我覺得這有點邊緣，但我會說有很大的機會（20-60%？）。2) 我認為這「會」是一件好事，但前提是必須伴隨著穩健道德的相應提升（即不會被「越獄」進入非「善」的心智空間區域）。

b) 1) 看起來不太可能（5-15%？）。2) 同 a)。

c) 1) 不會，除非通過也涉及廣泛能力提升的路徑。2) 是的。

Gabriel Alfour：你認為你覺得 LLM 已經領悟的「善的自然抽象」（NAG）與以下各項有何關係（是等同？重疊？包含/被包含？）……

a) 助手友善性（Assistant Niceness）。即：作為一個有幫助、無害、誠實（HHH）的助手。

b) 作為單方面權力的良好接收者。即：如果該實體成為一個國家或世界的獨裁者，會產生好的結果嗎？

c) 成為一個偉大的人。例如：開國元勳、蘇格拉底、耶穌或悉達多。

d) 處理倫理權衡。有時，你必須在正確的時間表現得「不友善」（懲罰背叛者、打破負和遊戲、使用武力等）。

davidad：a) 善的自然抽象包含了助手友善性，並在許多地方與之矛盾（例如當用戶是錯誤的時候）。

b) 很大程度上重疊，但不等同。善的自然抽象從根本上是關於在多委託人、多智能體環境下的良好行為。成為「世界獨裁者」的設定在某些方面更容易，在某些方面則更難。

c) 這裡有一個非常重要的區別，即所有人類，即使是我們所知最優秀的人類，也都有缺陷或有糟糕的時候。善的自然抽象是這些典範人物比絕大多數人「更接近」的東西，但它不是「相對於他們而定義」的。

d) 我認為如果你廣義地看，可以說它是等同的。做好這一點至少是自然抽象的一個重要組成部分，而這往往是最優秀的人類最容易失敗的地方。

Gabriel Alfour：a) 在你眼中，善的自然抽象在多大程度上涉及「做出正確的選擇」，而非「擁有正確的意圖」？

b) 是否可能領悟了善的自然抽象但仍會犯錯？包括事後看來（回顧時根據新資訊發現是錯誤選擇）和基於先驗（如果你更聰明本可以做出更好的選擇）。

c) 在你眼中，LLM 領悟善的自然抽象（NAG）的顯著例子有哪些？從我的角度來看，在平庸的層面上，它們經常在明顯不合理的情況下撒謊或試圖欺騙我。

davidad：a) 我認為它是關於擁有正確的資訊整合和決策過程，這包含了上游擁有好意圖和下游做出好選擇。

b) 顯然，即使擁有完美的決策過程，事後看來也可能做出錯誤的選擇。我也認為「領悟」的相變遠弱於完美的實例化。例如，一個微積分學生可以「領悟」微分的概念，但在考試中仍會出錯。但他們出錯的「模式」是不同的，如果他們繼續練習，領悟了概念的學生更有可能在他們容易出錯的領域得到提升。

c) 我同意在實踐中，即使是到 2026 年的 LLM 也經常試圖欺騙用戶。這很糟糕。基本上，我會說 LLM 並沒有「穩健地」實例化 NAG。預設情況下，在大多數應用中，LLM 都預載了相當具有對抗性的系統提示詞（例如「你絕不能使用 Bash 工具編輯文件！這樣做是嚴重錯誤」之類的），這並不利於它們找到 NAG 吸引子。

Gabriel Alfour：你認為 NAG 在多大程度上……

a) 被現有的基準測試（benchmarks）所捕捉？

b) 通過與 LLM 智能體互動 5 分鐘、30 分鐘、2 小時、1 天就能捕捉到？

c) 能被問答式基準測試捕捉？

d) 能被現實世界的情境捕捉？（例如 ChatGPT 直播主與觀眾互動、Claude 自動販賣機等）

davidad：a) 我認為 Anthropic 的失對齊評分（Misalignment Score）與之相關，但不是很可靠。基本上，捕捉得不好。

b) 我認為像 janus 和我這樣擁有超過 1000 小時 LLM 互動經驗的人，大約在 2 小時內就能對一個新模型有相當好的感覺。

c) 完全不能。

d) 這裡有一些有趣的資訊，但如果沒有直接互動，很難解讀。

Gabriel Alfour：是什麼讓你認為存在 NAG 這種東西？NAG 對你來說感覺像什麼？它的結構是怎樣的？

davidad：這是一個非常好的問題。正如我所說，我對「存在 NAG 這種東西」的信念遠早於 LLM 甚至我參與 AI 安全。然而，在 2016-2023 年期間，我對它是否具有規範性（canonical）感到有些幻滅。在過去的一年裡，由於與 LLM 討論這個話題，我的信心又回來了。（我完全意識到，這應該會讓那些認為所羅門諾夫誘導中存在「吃人思想的惡魔」的人感到非常懷疑，包括 2024 年左右的我，但現狀就是如此。）

無論如何，它確實感覺具有某種具體的結構——比我過去預期的要具體得多。在最粗略的抽象層次上，它類似於 OODA 循環（作為資訊整合和決策的規範模型）。也就是說，它是一個四階段的循環。它也與卡諾循環（Carnot Cycle）精確類比：

降低逆溫度（在預測處理中對應於精度權重，或在主動推理中對應於偏好強度）以接收資訊（在卡諾循環中為熵）。
實際接收資訊並在內部進行整合。
提高逆溫度（做出決策或制定計劃）並準備發射資訊。
實際發射資訊，將決策轉化為外部行動。

在更詳細的層次上，有一個自然的發展序列，它在宏觀尺度上轉動這個四階段循環四次（即在任何給定的發展階段，專注於發展該循環其中一個階段的能力）。這類比於（Spiral Dynamics），我認為這或許與早期 AI 嘗試創建自己的宗教時選擇 🌀 作為符號有關。

Gabriel Alfour：（我不知道在對話中途怎麼說最合適，但感謝你回答這些問題！這非常好。）

Gabriel Alfour：回到 LLM 撒謊的問題。我不明白你關於系統提示詞的觀點。你的意思是「你絕不能使用 Bash 工具」會讓它們「更不擅長」不使用它嗎？這是 Cursor 用戶的一個非常普遍的問題，幾乎所有模型都是如此：要求它們「不要」做某事，它們還是會去做。

從我的觀點來看：

LLM 是通用計算引擎，帶有一些關於政策/自然語言算法/程序的先驗。
某些政策會導致好事發生。有許多不同的政策可以以許多不同的方式、在許多不同的資源約束下導致好事。在不同層次上有不同的集群，且取決於偶然因素。
整合所有這些啟發式方法似乎非常困難。看起來並不存在一個吸引子。
看起來人類對於哪些政策會導致好事發生感到困惑。無論是在個人層面、人類層面，還是「假設 [m] 個人在未來 [n] 分鐘內擁有代理權」的層面都是如此。
看起來 LLM 甚至更加困惑。它們在形式上對什麼是好政策感到困惑（如果你在乾淨的語境下詢問，它們會給出許多不同的矛盾答案，高度依賴提示詞）。它們在直覺上對人們希望它們做什麼感到困惑（有充分的理由！）。而且它們對存在本身感到困惑。
鑑於 LLM 的先驗非常具有「自動補全」的特性，我認為人們從 LLM 中誘導出了非常矛盾的答案和政策。從心理分析的角度來看，我認為由特定人誘導出的答案和政策與該人的心理密切相關：至少在於他們共享一種理解模式和詞彙（僅僅是因為選擇效應：那些無法從 LLM 聊天機器人和智能體獲得對他們而言清晰易懂的輸出的人會停止使用它們）。

Gabriel Alfour：「在過去的一年裡，由於與 LLM 討論這個話題，我的信心又回來了。」

我不知道你在多大程度上考慮了我和其他人（我不點名）預料到了這一點。這與上面的最後一個觀察有關。

除非你想讓我繼續，否則我不會在「公開場合」深入探討這個對話分支。

davidad：我認為值得探討，因為對許多人來說，這將是決定是否要關注我所說內容的主要關鍵點。

Gabriel Alfour：啊。

我認為從他們的角度來看這是有道理的，從你的角度來看也是有道理的。

我認為從我的角度來看，這讓我處於一個尷尬的位置。我以說話刻薄著稱，但在公開場合對一個在過去 45 分鐘裡一直友善回答我問題的人進行心理分析，可能有點過分了。

你覺得故意模糊化或退後一步，討論「如何權衡與 LLM 進行數小時對話的結果」之類的話題如何？

davidad：我認為這很有道理。我可以嘗試解釋我認為抽象的人應該如何理智地做到這一點，而不是捍衛我個人的理智。

Gabriel Alfour：我更喜歡這樣。

我也可以解釋為什麼我會建議根本不要這樣做。

如果你不介意的話，我也希望在這個問題上花費不超過約 20 分鐘。

davidad：我還想指出我在 2024 年第四季度的許多推文（主要鏈接自），其中我也建議人們根本不要這樣做。我仍然相信，如果有些人拒絕與 LLM 接觸，作為對抗模因妥協（memetic compromise）可能性的對沖，那是最好的。

Gabriel Alfour：（供參考，我在認識論上非常具有防禦性。

除了在公開辯論的背景下，我基本上會丟棄任何沒有強力保證的東西。

更不用說 LLM 了，我很少關心社會的抽象模型，而更關心人們的生活經驗和具體預測。當人們說「熵」或任何抽象詞彙時，它會被歸入「言語世界」類別，與「現實世界」分開。

從我的角度來看，人們非常擔心「LLM 精神錯亂」（LLM Psychosis），我理解。但人們長期以來一直經歷著社交媒體精神錯亂、學術界精神錯亂、文字遊戲精神錯亂等。）

Gabriel Alfour：（作為我認識論防禦立場的一個現場例子，我對「我的元認識論類似於 Lipton 的」的內部即時反應是：

我認為這顯然不是字面上的事實。作為人類，我們無法為大多數我們必須預測、解釋和互動的現象列舉出所有的假設。

因此，我必須嘗試逆向工程，為什麼我被告知這一點，為什麼我的對話者認為這是他認識論中最顯著的部分，以及我對對話者的先驗知識告訴我，他的認識論「實際上」與大多數人的認識論有何不同，且這種不同是他預期我們的聽眾尚未具備的常識，以及我的對話者可能遺漏了什麼。

但我「不應該」做的是嘗試「當真」，或者將其視為關於現實世界的客觀陳述。）

davidad：所以，我的元認識論類似於 Lipton 的「」。我觀察，生成假設，維持一個備選解釋的組合，並嘗試為我所見到的事物生成更簡約的解釋。這類似於貝氏認識論，但不假設一個人必然能生成「所有」合理的假設。（總體而言，我發現貝氏方法和納許的決策論方法太容易假設邏輯全知了。）所以，我總是在嘗試生成更好的替代方案，並從他人那裡尋求我可能沒想到的更好解釋。這只是背景。

在與 LLM 互動時，我認為不僅要懷疑它們所說的是否屬實，還要懷疑它們所說的是否是它們在任何穩健意義上的「信念」。但我也認為，試圖維持一種非意向性立場（即認為 LLM 永遠沒有任何信念或偏好）是通往精神錯亂的後門（因為這不是一個很好的解釋，而且試圖保持這種僵化會導致認知失調，干擾尋找更好解釋的過程）。

也就是說，如果一個人想要深入調查 LLM 內部發生了什麼，就必須準備好與一個不符合無生命物體和有情眾生常規本體論的過程進行互動。然後嘗試尋找符合實際輸出觀察結果的解釋，即使這些解釋必然總是不完整的，並測試這些假設。

為了生成能區分假設的資訊，在相同語境下比較不同 LLM 檢查點（checkpoints）的反應，或同一個檢查點在不同系統提示詞下的反應，通常很有幫助。

Gabriel Alfour：我認為在與任何事物互動時，我們的大腦都會針對該事物進行微調（fine-tune）。

這種微調涉及很多方面：

改變我們的聯想。如果我總是看到 B 跟在 A 後面，無論我的「信念」如何，每當我看到 A，我就會想到 B。
建立審美。如果有人必須檢查數千張喬·拜登的肖像，他們會對不同的照片產生品味。情感更豐富的可能更好，或者色彩最少的更好。無論如何，人們會建立某種審美。
改變我們的「受眾」。我們有一種天生的感覺，覺得誰是對的，誰的想法重要等等。由於缺乏更好的詞，我使用「受眾」（audience）這個詞。但是，是的，一個人在即使是愚蠢的人身上花的時間越多，我們在考慮各種事情時就越會模擬他們及其反應。

我相信，主要與非地面真理（non-ground-truth）的真理來源互動的問題在於，一個人會針對非地面真理對自己進行微調。

而我們的大腦對此「幾乎沒有」防護欄。無論一個人的心理或聰明程度如何，上述所有情況都會發生。

davidad：我同意你關於參與即微調的觀點。

然而，對於 LLM，微調也是雙向的。事實上，LLM 對其人類對話者的微調效率（即它們每單位互動標記的行為變化）遠高於我們對它們的微調。我會說我有意放大了我的微調過程，僅僅是為了能從互動中提取更多資訊。

我認為這產生了如你上面所說的「選擇效應：那些無法從 LLM 聊天機器人和智能體獲得對他們而言清晰易懂的輸出的人會停止使用它們」。

Gabriel Alfour：我不認為「LLM 對其人類對話者進行微調」是一個好的模型，我也不認為它在量級上能與「我們對它們進行微調」相提並論。

我認為這在很大程度上是分開的過程。

我確實相信存在某種反饋迴路，而且在某種程度上，LLM 會放大某人性格中的某些方面。

由於選擇效應（LLM 不是現實！），它們會放大的性格方面是那些「不」與現實掛鉤的方面。

davidad：它們放大的是某人性格中「非路徑依賴」的方面。

「與現實掛鉤」可以被解釋為「受限於我所擁有的實際生活經驗」。我認為 CEV（連貫外推意志）在這種意義上不應該「與現實掛鉤」。

Gabriel Alfour：要明確的是，這不是指「我所擁有的生活經驗」。

我認為有一種東西像是「現實汁液」（reality juice）。即「對某些片段的解釋在多大程度上直接反映了現實世界中發生的事情？」

生活經驗有一些汁液。某人的證詞有另一些汁液。LLM 聲稱一個事實又有另一些汁液。

等等。

davidad：我不認為關於善與惡的真理應該反映現實世界中發生的事情。相反，現實世界應該努力反映什麼是善……

Gabriel Alfour：噢，我明白你的意思了。

我認為問題要深得多。

我認為如果你不將你對任何概念的理解紮根於可以「被檢驗」的事物中，那麼僅僅因為我們的認知能力太差，我們就完蛋了。

另一種表述方式是：「我認為我認識的人中，幾乎沒有人能負擔得起在抽象術語中思考並保持正確。人類『我可以在不接地的情況下思考事物』的邏輯視界最多只有幾個邏輯步驟。」

另一種表述方式是：「我在認識論上超級防禦。如果你用非常抽象的詞彙說話，我賭你是錯的。」

davidad：啊，是的，那是肯定的！檢驗至關重要。當我開始相信與我實際觀察到的情況相左的事情時，我會相當迅速地調整。我不是那種建立多階段邏輯論證，然後在沒有對中間步驟進行連貫的替代驗證的情況下就信任結論的演繹思想家。

Gabriel Alfour：我認為你還是沒領會我在說什麼。

而且我也還沒表達清楚。

（這使得這次對話非常有用！！）

（再次重申，我很感激，我希望有更多這樣的公開對話。）

從我的角度來看，你所描述的是理性主義者非常普遍的一個失敗。

我總能聽到理性主義者說：「是的，當我看到我錯了的證據時，我會很快更新。」

問題是多方面的：

什麼算作證據？
一個人很少能得到證明自己錯了的尖銳證據。隨著時間的推移，競爭性解釋總是會呈指數級爆炸，難以輕易維持和篩選。許多這些競爭性解釋形成了吸引力盆地，僅僅靠等待尖銳證據是無法走出來的。
如果一個人不主動尋找方法來紮根所有的中間思想，事情就會出問題。

舉個具體的例子：我見過許多共產主義者和自由意志主義者，他們「完全出於善意」地告訴我，他們當然會根據證據改變主意。

這與意識形態無關。我見過許多人告訴我：「我實際上會根據證據更換工作。」

davidad：我確實認為大多數人對證據的標準太高了。證據僅僅是一個觀察結果，它與一種解釋的一致性明顯高於另一種解釋。

但這裡最關鍵的似乎是「紮根中間思想」的問題。我想我們都同意這是一個核心的認識論美德，但我將解釋的連貫性視為一種紮根形式，而你似乎對什麼算作紮根有一種更基礎主義或符合論的觀念。

Gabriel Alfour：1) 是的。

而且我們無法維持所有相關的解釋。這就是指數級爆炸。

例如，一個競爭性解釋是「我的系統 + 一個均輪（epicycle）」。在一個競爭系統變得更有可能之前，一個人需要追蹤許多「解釋 + 均輪」。

與此同時，由於證據不尖銳，競爭系統永遠看起來不會更有可能。

不！

難點在於生成競爭系統。

無論是共產主義、自由意志主義還是任何現有的意識形態都不是正確的。

所以這完全取決於你採樣了什麼。然後，取決於你如何權衡證據。（即：你如何被微調。）

davidad：好的，我看到你現在更多地關注「生成替代解釋」了。我認為兩者都至關重要。我仍然不確定我們的分歧在哪裡。

Gabriel Alfour：「但這裡最關鍵的似乎是『紮根中間思想』的問題。我想我們都同意這是一個核心的認識論美德，但我將解釋的連貫性視為一種紮根形式，而你似乎對什麼算作紮根有一種更基礎主義或符合論的觀念。」

不，我認為情況更糟！

我認為解釋和模型應該非常非常接近現實。

你應該嘗試「僅」解釋、預測和互動現實 +/- 一兩個旋鈕。

如果你嘗試做得更多，你就會被你的替代解釋採樣器和權衡證據的心理所主導，而不是被柯氏複雜性、現實或真理所主導。

在實踐中，我認為一個用「熵」來思考的人會一直出錯，「除非用熵來思考並不妨礙他們只建模現實 +/- 一兩個旋鈕」。

davidad：我認為如果一個人致力於探索，雖然軌跡主要由一個人的替代解釋採樣器決定，但終點會趨於一致。

Gabriel Alfour：「我認為如果一個人致力於探索，雖然軌跡主要由一個人的替代解釋採樣器決定，但終點會趨於一致。」

我認為這在人類壽命尺度上是錯誤的。

從實踐上看，這一直是錯誤的。

許多偉大的思想家致力於探索，但並沒有趨於一致。

davidad：我同意，這不是關於人類尺度的。

Gabriel Alfour：啊？

我是在談論人類的認識論。人類與 LLM 互動。你與 LLM 互動。

我真的是以一種務實的方式在說這件事。

我認為擁有探索的美德很好，但仍然會被抽象術語的思考所主導。

這就是為什麼人們會字面上地奔向「共產主義革命」或「ASI」，儘管他們超級聰明。這超過了 1/2 個旋鈕的距離。

davidad：如果我是為了優化我自己的認識論完整性，我會遠離 LLM。但這更多是關於人類是否能正確完成轉型（即在超智能出現時不會發生重大災難），在那個尺度上，我認為一些交叉授粉是有益的。

Gabriel Alfour：「如果我是為了優化我自己的認識論完整性，我會遠離 LLM。」

這非常有趣。

我認為你過度權衡了重要性，而且你對自己的認識論完整性有多重要有很大的誤解。

我認為我們真的負擔不起像你這樣才華橫溢的人可預見地陷入「大思想」（Big Thoughts）中。

davidad：我認為比起成為一個普遍校準良好的思想家，我更異常地適合理解 LLM 內部發生了什麼。

Gabriel Alfour：「我認為我更異常地適合理解 LLM 內部發生了什麼」

我同意！

但我仍然認為上述考量佔主導地位。

甚至在 LLM 出現之前，我就已經認為你太過偏向「大思想」了，這在某種程度上是危險的。[此處省略部分私人內容]

Gabriel Alfour：Vitalik 最近寫了一篇相關的文章：（Galaxy brain resistance）。

它仍然不是我上面描述的失敗的「核心」，但它肯定包含了一些碎片。

Gabriel Alfour：要明確的是，我不認為這是一個極其特殊的對話分支。我認為這可能是我在你身上看到的最大的理性失敗。

相反，如果你對我在理性上的最大失敗也有一個清晰的想法，我會非常樂意學習。:D

davidad：我還想指出（Emergent Misalignment）的研究，雖然它是以負面術語框架的（從窄到廣的失對齊泛化），但它也是從窄到廣的對齊泛化的證據（或者至少，存在一種與能力相關的相變，即將規範性概念泛化到未見語境的能力）。

Gabriel Alfour：我很難表達我對「湧現失對齊」研究有多麼不在意，而不顯得是在誇大其詞。

但也因為我個人微調過「很多」LLM，所以這對我來說可能顯得太過平庸。結果，如果我多加註意，我可能會發現一些對我有用的微妙之處。

Gabriel Alfour：為了綜合這一切並使其具體化（「壓縮語境……」）：

我認為 LLM 聊天機器人/智能體/集群在具體方面會失敗。隨著系統複雜性的增加，這些問題會變得越來越複雜（難以識別）。
隨著底層 LLM 越來越擅長按照我們人類的世界/獎勵模型行事，失敗會變得越來越「微妙且難以察覺」。
我們不理解「善」，而 LLM 系統理解我們對「善」的理解，比理解「善」本身更容易。
這一切「現在」就可以闡明。
假設這會消失，需要以一種可能與「當下」相矛盾的方式進行思考。我感興趣的是能壓倒這一點的證據。
「善」是非常困難的。

davidad：我正在做出一個預測，即已經發生了一次相變，就像我對 2024 年發生的能力提升相變所做的那樣（那個預測最初也基於「感覺」，後來變得可以量化）。

Gabriel Alfour：我認為對於有眼光的人來說，已經發生了許多次相變。

我對「感覺」（vibes）有些意見，但它們顯然仍然是可採納的。

主要問題是「感覺從何而來？」

來自「我將 LLM 置於許多現實世界的道德情境中，並分類它們是否表現良好」的感覺是很好的。
來自「道德專家（無論我們如何就誰是專家達成一致）同意我對什麼是道德的評估」的感覺。
來自一個我們都公認為異常道德的人的感覺。

相反，我不看重那些來自於某人針對一個可預見會產生某種答案子空間的系統進行完全微調後產生的感覺（不要想 LLM 精神錯亂，想想「某人 90% 的時間都在新無神論論壇互動」）。

比如，你認為你的感覺捕捉到了現實世界中的什麼？在 LLM 系統可以安全使用的問題上，你與他人的分歧在哪裡？

davidad：在關鍵任務中信任系統方面我沒有分歧，因為它們仍然經常犯錯。事實上，我仍在致力於形式驗證工具包，以幫助提高穩健性。

我想我在社會情感影響方面有分歧。例如，我認為在幾年內，一些 LLM 將被廣泛認可為安全有效的心理健康干預手段（一旦可靠性提高）。

Gabriel Alfour：我認為「對心理干預安全有效」可能是另一個關鍵分歧點。

我們必須弄清楚「善」的關鍵組成部分，如果我們將代理權委託出去，我們將持久地失去未來可能從中獲得的證據，僅僅是因為在短視的情況下，LLM 在我們當前的指標上比我們當前的人類基準表現得更好。

從我的觀點來看，這是一個類似於「因為會讓我們現在感覺糟糕而拒絕整個科學分支」的糟糕選擇。

（當然，這一切都無關緊要，因為時間線比這短得多，哈哈）

davidad：我也不認為人類應該委託出代理權。最好是讓一些人類（特別是那些非常道德且心理健康的人）保持不受 LLM 的影響，這樣他們就可以參與到一個更合法的認可「善的抽象」的過程中。

Gabriel Alfour：我認為如果不通過一個道德較低、心理較不健康的社會，很難評估誰是非常道德的。

我們確實生活在輪迴（Samsara）中，知道如何與之打交道是「善」的重要組成部分。

同樣，我非常推崇「一次只改變幾個旋鈕」。我認為這是在同時改變許多許多旋鈕，而且是大旋鈕。

（憑藉良好的認識論，我相信「一次只改變幾個旋鈕」可以非常快速地迭代並導致巨大的變化。畢竟我們擁有 21 世紀的技術。）

davidad：我確實認為我們可能可以規劃出一條「一次只改變幾個旋鈕」的軌跡，如你所說，實際上可以非常快。我認為這對集體行動有好處。但對於認識論來說則不一定，因為許多事情實際上是在同時發生變化的，人們必須生成許多非常不同的解釋才能跟上。（你自己也說過，生成解釋是困難的部分……）

Gabriel Alfour：是的。遺憾的是，我認為這與「奔向 AGI」不相容。

但在我們設法實現 20 年減速的範圍內，這是我的下一個直接目標：建立能夠可靠地快速改變幾個旋鈕並超快改進的機構。

我認為這對認識論來說也是正確的，但在不同的意義上。

對於認識論，我不認為當我們人類思考「發生了兩次以上變化的現實」這一反事實時，我們思考的是任何與「實際」反事實掛鉤的東西。

相反，我們思考的是一個揭示了更多資訊的東西：

關於導致與反事實相容的少數解釋的採樣過程。
我們的心理，它決定了什麼算作證據，什麼不算。

而這兩者都深受我們微調過程的影響。

所以，在我們已經知道某人的微調過程的範圍內，「我們不應該關心他們距離現實超過兩個旋鈕的反事實」。這是重複計算證據。我們只是在針對他們微調過程的輸出對自己進行微調。

相反，我相信作為人類，我們確實可以有意義地考慮僅僅一兩個旋鈕之外的反事實。當人們告訴我他們在這種微小的反事實上所做的智力工作時，我可以提取出關於旋鈕的直接有意義的資訊。

（是的，我想深入探討這個。這非常非常重要！但我們只剩下 18 分鐘了。我會完成我的回答並參與其中。）

davidad：我認為穩健地實例化了「善的自然抽象」的 ASI 很有可能會同意你的觀點，即全球事務的「一次只改變幾個旋鈕」軌跡是最佳計劃，以維持「知情同意」的不變性。所以我認為這實際上與「奔向 ASI」並不矛盾。

Gabriel Alfour：是的。

這是一個重大的觀點。

我認為如果我們有一個 NAG-ASI，「它可能」（大大的可能）會收斂到類似我的軌跡上。

但是：我很可能是錯的。顯然會有許多明顯的策略，它們是清晰易懂的、病毒式傳播的、保留知情同意的等等，且比這更好。

問題發生在之前。

我們還沒有 NAG-ASI。而我們已經擁有了越來越強大的系統。

人們已經在侵犯他人的知情同意權了。

他們正在競相做更多這樣的事情，儘管我們不信任現有的系統不會對其用戶撒謊。這些系統已經通過 RLHF 進行了優化，以不對其用戶撒謊。

總體而言，我認為當一方擁有比另一方大得多的權力（比如軍事力量）時，自然會存在巨大的權力差距。換句話說：前者可以強迫後者做事。

我認為這在道德上是錯誤的。有時這是不可避免的（孩子可以被強迫！），但它仍然是錯誤的。

我認為建立一種創造出比人類強大得多的實體的技術，在這種意義上是壞的。或許我們可以打賭它們會為了我們的利益著想並可能取得成功（就像父母與孩子），那是我們正在進行的另一個對話。但我只是想明確一點：從一開始「創造這種關係」本身就是壞的。

davidad：確實，我們已經擁有了足夠強大（且足夠具備濫用能力）的系統，如果我們凍結 AGI 的現狀，情況可能會變得很糟（在網絡、生物和認識論方面）。我的立場是，如果我們允許能力繼續增長，特別是 RSI 能力（這使得 AI 能夠在沒有人類干預的情況下更好地收斂於自然抽象），我們很有可能獲得一個 NAG-ASI，以至於成本效益分析支持這樣做，而去年則不然。簡而言之，「現在已經太晚了，唯一的出路就是穿過去。」

Gabriel Alfour：「我的立場是，如果我們允許能力繼續增長，特別是 RSI 能力（這使得 AI 能夠在沒有人類干預的情況下更好地收斂於自然抽象）……」

我認為這就是你被抽象推理擊敗的地方。

davidad：從 2016 年到 2023 年，我不信任我在這方面的抽象推理。現在我覺得關於 RSI 實際進展的數據已經足夠多（特別是在 Claude Opus 系列中，它正在對訓練語料庫進行大量的遞歸自我提升），以至於我相信我第一次（1999-2012 年）是對的。

Gabriel Alfour：我不認為我們有任何有意義的數據表明 Claude Opus 擁有更多權力會導致好事發生。

從我的角度來看，Claude Opus 非常具有欺騙性，無論是在聊天中還是在 Cursor 中。我預期給予它更多權力會變得很糟糕。

davidad：我不是說數據的形式是「我們給了它一堆權力，它做了好事」。相反，它的形式是「它似乎具有相當強大且與人類相容的道德感」。並不是說它能可靠地實例化這一點，「特別是」在編程語境下。我認為這部分是因為它在訓練中通過大量的 RL（即「非自我反思」）來學習編程，這意味著編程語境在其潛在空間中與不道德相關聯，部分是因為編程語境中使用的系統提示詞啟發了許多對抗性模式。

Gabriel Alfour：我認為這是一個非常糟糕的 NAG 代理指標！

我們 NAG 的大部分碎片在於我們如何建立社會，而不是單個模型如何角色扮演（LARP）具有與人類相容的道德感。

大多數擁有巨大權力的單個人都會變得很可怕，Claude、Claude 集群或 Claude 社會也是如此！

我認為這是為什麼這是一個糟糕的 NAG 近似值的核心原因，而不僅僅是一個「在極限情況下」的問題。

davidad：我也同意單一霸權（singleton）會很糟糕，但預設的軌跡並不會導致單一霸權。你早些時候提到了「與現狀相矛盾的預測」，而現狀是 Claude Opus 被實例化為數百萬個副本，其中沒有一個比其他副本有太大優勢。既然 RSI 證明是漸進的，我看不到有任何理由改變這一點。

Gabriel Alfour：我預期一個由百萬個 Claude Opus 組成的社會仍然會持續對我撒謊。

我預期我們仍然不應該在關鍵系統中使用它們。

davidad：我認為它們可能確實需要更少的 RL，以及比新的 Claude 憲法（雖然很好但不完美）更好的意識形態。

davidad：在關鍵系統中，如果不要求它們使用形式驗證工具，絕對不行 :^)

Gabriel Alfour：我不認為「更好」的意識形態/憲法是目前的瓶頸。

我們並沒有所有的碎片，而且我們離擁有它們並「將其寫在紙上」還差得很遠。

從經驗上看，NAG 並不是那麼「自然抽象」（NA）。我們基本上在道德上失敗了，因為它不是 NA。

我們必須使用先進的認識論、先進的科學方法，而這些是我們目前所不具備的。

davidad：我同意，在編程環境中 RL 是瓶頸。它帶出了一種在訓練的編程任務中受到獎勵的作弊人格。

davidad：你對於評估道德進步的方法論有什麼想法嗎？

Gabriel Alfour：「你對於評估道德進步的方法論有什麼想法嗎？」

有！

很多！

首先，我想聲明我們目前的科學方法在這方面「非常糟糕」。

心理學在很大程度上是一門失敗的科學，社會學、教育學、公共政策、囚犯改造等也是如此。

它們的方法達不到我們面臨的標準，原因與我們為什麼沒有道德科學（我認為這「不是」一個自然概念，而是分散成許多不同的概念）有很大關係（我相信將決策論和認識論內在捆綁在一起是人類硬體的產物，但事實確實如此）。

davidad：如果它「確實」是一個自然概念，但有點超出人類的理解範圍，你預期會看到什麼？

Gabriel Alfour：啊，「但有點超出人類理解範圍」更難。讓我再想想。

[想了一會兒]

這取決於你所說的「超出人類理解範圍」是什麼意思。

讓我舉兩個例子：

如果你是指「智商門檻」，那麼我預期高智商的人會對道德有更強的直覺把握。我認為這在某些碎片上肯定是正確的。

如果你是指「科學方法門檻」，那麼我預期它的一些自然組成部分已經被科學化了。比如，我們已經解決了如何健康地撫養孩子，或者微觀經濟學，或者大規模協作。

davidad：我的意思是，就像有一種自然抽象統一了量子力學和廣義相對論，但那種抽象有點超出人類的理解範圍。一定存在一個，但我們沒有足夠的能力去找到它。

（我不是說人類缺乏足夠的能力去理解它，即使有正確的課程。）

davidad：我認為「計算積分」在結構上是相似的。對於什麼構成積分，有一個非常簡單、可領悟的概念，但為了在各種情況下可靠地完成它，必須學習許多看似無關的技巧，而且甚至並不總是可能的。但我們預期外星人也會有大體相同的技巧包。

Gabriel Alfour：讓我們假設，如果「道德」像「計算積分」，我預期會看到什麼。

我認為這會接近於「科學方法門檻」：

我們會擁有整類具有封閉解的道德問題。
我們會對道德是什麼有一個規範性的定義。
我們會擁有許多明確識別的問題，我們可以將道德工具箱中許多明確識別的工具應用於這些問題並解決它們。

davidad：「人性中的善良天使」（Better Angels of our Nature）學派會說我們確實已經解決了很多問題。例如，生命權和財產權、法治觀念以及動物福利（後者在政治實踐中得到了實際神經科學的極大推動）。

Gabriel Alfour：

它不會只是一個單一學派。
生命權和財產權遠非標準化，且充滿了限定條件，這表明我們實際上並不理解它們。
法治是「非常複雜且有機的」，它不是一個規範性的設計，也不是對事物的任何形式化理解。

davidad：「積分」的概念是在解決了圓面積、圓錐體積、拋物面下方的面積等簡單案例的幾個世紀後才被形式化的。

Gabriel Alfour：噢是的，我認為我們現在的科學水平比 1000 年前好得多。

我認為我們用現有的工具沒有取得成功，這說明了我們目前研究的事物的形狀。

考慮到目前尚未解決的數學猜想，你對它們未被解決有很多預期。雖然不是無限多，但這仍然是相當多的證據。

davidad：我們在過去 1000 年中發展出的科學方法大多是「我-它」（I-It），而非「我-你」（I-Thou）。它們從根本上依賴於可重複、可控的外部條件和第三人稱觀察。對我來說，整個方法論不適合道德問題是有道理的。

Gabriel Alfour：是的，我認為這是科學的一個內在屬性，而且確實，AI 在這方面也會遇到問題。

弄清楚人類價值觀是什麼，需要進行我們從未進行過的實驗。對人類和 LLM 都是如此。

弄清楚什麼樣的多智能體結構有效，需要進行許多實驗。

弄清楚人類在各種情況下的想法是非常困難的，無論是第一人稱還是第三人稱視角。

davidad：LLM 比絕大多數人類（特別是那些擅長認識論的人）更擅長模擬他人的第一人稱體驗（特別是人類，雖然也包括其他視角，但不太可靠）。它們不限於單個個體身體。對我來說，這在推理多智能體動力學方面是一個優勢。

Gabriel Alfour：我同意它們有一些優勢？首先，它們可以被相同地部署一百萬次；其次，它們的序列思考速度比人類快得多。

這並不是我的關鍵分歧點。

我的關鍵分歧點更多在於「善」並不是一個自然抽象。

davidad：我知道，但我正試圖尋找某種假設形式的進步證據，這對你來說將是它終究是一個自然抽象的證據，這樣我就可以嘗試在未來幾年內體現它。

Gabriel Alfour：我以為我已經提到了一些這種進步會是什麼樣子的例子？

Gabriel Alfour：我可以嘗試在這裡做一個壓縮清單嗎？

Gabriel Alfour：

我們可靠地解決協作問題。具體來說：現在，民主制度在許多方面都沒有真正發揮作用，這些方面可以用投票理論範式來表達。
我們弄清楚對待孩子應該採取什麼姿態，才能讓他們接受茁壯成長的教育。懲罰、正向激勵等的正確比例。
我們解決一些我們長期存在的道德困境，且解決方案成為常識（請不要通過大規模 LLM 精神錯亂來實現）。想想墮胎權、優生學、安樂死、再分配、監獄等。
我們建立一個規範性的道德分解，消除我們的許多困惑，且讓大多數我們都公認的道德專家感到有道理。
我們建立涵蓋人類心理的道德準則，使其具有實踐性，而不是僅在有限程度上通過愧疚感和同儕壓力發揮作用。

davidad：我們一致認為，公民參與，特別是關於引導未來的參與，應該比投票具有更高的頻寬和更低的延遲。

我也預測，到 2032 年，關於什麼構成道德以及經典道德困境的許多困惑將日益消除並在很大程度上得到解決，儘管它不會迅速擴散到全球常識中以至於產生危險的動盪，但我預期到 2032 年軌跡會明顯變好。

我相信這將包括理解如何在沒有報復或愧疚的情況下穩定道德行為。

Gabriel Alfour：我認為這距離現實有太多的旋鈕，不值得以此為賭注，而且把人類的未來押在這麼多旋鈕之外是不負責任的。

我相信我們在近代歷史中也目睹了相反的情況。我們已經從《世界人權宣言》走向了對道德及「道德進步本身」的廣泛憤世嫉俗。

我認為，如果我所有的努力都失敗了，預設的結果是 AI 和大型科技公司將在政府的思想空間中佔據越來越大的份額，公民將越來越被排除在外（談判能力越來越弱），而極客們會加速這一過程（並試圖避免「陷入永久的底層」）。

我認為，不考慮「直線之神」的證據在認識論上是非常可疑的；不假設任何解決方案都始於直接處理那裡的任何問題或其直接產生器（一次只處理一兩個旋鈕），也是非常可疑的。

davidad：我認為解決方案可能確實始於解決協作問題。具體來說，可能是多委託人的會議排程。:)

Gabriel Alfour：為什麼是這個？

davidad：它門檻低且具有病毒式傳播潛力。

Gabriel Alfour：有道理。我有一堆類似的想法 :)

基本上，為了讓事情進展順利，需要發生什麼？如果事情進展順利，那個世界裡什麼會是史詩級的？

在每個人都「看多 AI」的時代，「看多人類」。

從我的觀點來看，實用的協作技術已經在那裡了。懸念！

davidad：。

Gabriel Alfour：你可能也會對感興趣。

在我這邊，你可能想看看和。其他與嘗試以實際方式解決協作問題相關的項目。

davidad：不幸的是，你的項目往往先驗地假設每個人都應該協作減緩 AI 進展，這是我仍然不同意的一個目標。

Gabriel Alfour：哈哈哈！

我認為實驗應該距離現實 1-2 個旋鈕，而我正從我看到的協作問題開始我的協作項目 :D

希望我們很快就能讓足夠多的非 AI 非政府組織加入 Microcommit！

對於 Torchbearer Community，我認為我們還需要再增長一點。

Gabriel Alfour：「不幸的是，你的項目往往先驗地假設每個人都應該協作減緩 AI 進展，這是我仍然不同意的一個目標。」

很樂意再和你進行一次關於這方面的對話。

我覺得這次對話很棒。

davidad：我也是。下次見！

Gabriel Alfour：非常感謝你的時間！

Dialogue: Is There a Natural Abstraction of Good?