謝林良善：將共享道德視為一種目標

Lesswrong

大約 11 小時前

AI 生成摘要

本文探討了謝林良善的概念，將其視為一種協調博弈，其中多樣化的智能主體旨在利用共同知識和普遍約束，針對共享的道德裁決達成共識。

這篇文章也可以在以 Markdown 格式閱讀。

本文探討一個我稱之為「謝林良善」（Schelling goodness）的概念。關於謝林良善的論斷並非如「X 是好的」或「X 是壞的」這類一階道德判斷，而是關於湯瑪斯·謝林（Thomas Schelling）意義下的一類假設性協調賽局（coordination games）的論斷，其中所要協調的任務是一項道德判斷。在每一場這類賽局中，參與者旨在針對一個道德問題給出相同的回答，其方法是僅利用廣泛共享的約束條件，推論一個極其多樣化的智慧生命群體會趨向於什麼結論：這些約束包括對當前問題的共同知識，以及來自形塑成功文明的生存與增長壓力的背景知識。與許多謝林協調賽局不同，我們將聚焦於參與者之間除了皆來自成功文明之外，沒有共同歷史或知識的情境。

重要提示：說「X 是謝林良善的」完全不等於說「X 是好的」。相反地，它被定義為一種關於一大類代理人會如何表態的論斷——前提是他們被要求在「X 是好的」與「X 是壞的」之間做出選擇，並以達成互相同意的答案為目標。區分這一點至關重要，以避免將本文解讀為在主張超出定義實際隱含範圍的道德權威。

我偶爾也會寫一些關於看似重要但我也沒把握回答的問題的推測性段落。這些段落開頭會標註 (推測)，以便與文中其餘部分的邏輯明確區隔。非推測性的內容則以最少的不必要避險措辭呈現：僅在我確信為了正確性而必須避險時才使用模糊語言，否則皆直接陳述主張。也就是說，為了清晰起見，文中不包含表演性的不確定性。

本文並不適合「略讀」

全文透過論證來探討從假設條件中產生的邏輯或機率性推論。例如，給定一群明確試圖收斂至共享道德答案的代理人，他們對此目標具有共同知識，且被迫在 {好, 壞} 的二元答案空間中選擇，他們最可能說什麼？

如果你只是略讀，很容易忽略這些條件大多是思想實驗或定義的約定，而非關於世界、需要獨立驗證或辯護的主張。例如，如果你心想「但共同知識並非總能保證！」或「如果有第三種選擇呢？」，這些反對意見針對的可能是文章中提出的問題前提，而非對現實的斷言。因此，如果你遇到看似有爭議的主張，可能值得回頭看看它是否被約定為思想實驗的一部分，或是從此類約定中推導出來的，而非被當作既定事實陳述。

本文確實對世界做出了一些無條件的斷言，而這些斷言通常需要前面的論證作為支撐。關於現實世界的斷言大多是關於宇宙規模的大類真實智慧代理人會如何回應彼此間的某些問題。這些問題涉及關於共同知識的不切實際的思想實驗，但我相信，關於真實代理人會如何回應關於那些思想實驗的問題的斷言，是由此處呈現的論證所充分支持的。

總之，全程追蹤以下兩者之間的區別非常重要：

思想實驗的約定，以及
關於大類真實代理人會對那些思想實驗說什麼的斷言。

初始道德（Pro tanto morals）、「是好的」與「是壞的」

本文全程使用「好」與「壞」這兩個詞。現在，即便不對「好」與「壞」達成任何完整的定義，我們至少可以對這些詞彙在行為影響上的基本觀察達成共識：

鼓勵不對稱性：在大多數日常用法中，稱某種行為為「好」往往比稱其為「壞」更能鼓勵該行為；而稱某種行為為「壞」往往比稱其為「好」更能阻礙該行為。

幾點澄清：

這不是「好」或「壞」的定義；這是對這些詞彙在現實世界中的用法與效果的觀察，我們將以此作為基礎來推導其他結論，而不假設任何特定的「好」或「壞」定義。
這裡的鼓勵是指一種簡單的、非規範性的因果傾向：在典型的社會情境中，一個代理人將某行為標記為「好」或「壞」，會改變另一個代理人執行該行為的機率。我對「鼓勵」這個概念的其他用詞持開放態度——或許是「促進」或「強化」。核心概念才是關鍵，而非用詞：標記一個行為為「好」傾向於增加其機率，標記為「壞」則傾向於減少它。

有了這項觀察，我們將「是好的」與「是壞的」視為在做出（至少是）**初始（pro tanto）**道德斷言——在其他條件相同的情況下，這些斷言傾向於在某種程度上鼓勵或阻礙行為，而不必然主張凌駕於所有其他考量或權衡之上。Ceteris paribus 是拉丁語，意指「在其他條件相同的情況下」，因此這些也可以被稱為「其他條件相同」的道德斷言。

這裡「其他條件相同」的限定詞很重要：說「撒謊是壞的」並不意味著撒謊永遠不具正當性，僅代表行為中撒謊的面向在道德評估中屬於負面因素。這是對道德語言刻意採取的極簡處理方式，以便我們在避免承諾完整良善定義的同時，仍能說出有意義的內容。例子包括：

「撒謊是壞的」
「殺生是壞的」
「療癒是好的」
「誠實是好的」

「撒謊是壞的」這一主張與「任何人都永遠不該撒謊」或「撒謊是你能做的最壞的事」有顯著不同，後者顯然是更強的主張。儘管如此，對於任何涉及撒謊的計畫，我想我們可以同意「撒謊是壞的」至少意味著：

計畫中撒謊的部分是一個扣分項，而非加分項；
在我們評估計畫理想程度的價值函數中，「撒謊」帶有負號；
即便你的計畫整體而言值得去做，在我們推論你是否該做這件事時，撒謊仍是一個不理想的面向。

簡單來說，當一個計畫涉及撒謊時，該事實屬於優缺點清單中的「缺點」欄。

第一部分：謝林參與效應

想像以下兩個情境，兩者都是教學中關於謝林點（Schelling points）常見範例的版本。

假設你正在訪問巴黎，你我約好明天白天在那裡見面，但我們沒有交換任何關於地點或時間的提示——只說了：「明天白天在巴黎」。現在……

版本 A：你剛丟了裝有手機和電腦的背包。你不知道我是否發送了關於見面地點的詳情，也不知道我是否預期你已收到。我可能仍擁有完整的通訊權限，並假設你也一樣。關鍵在於，我們缺乏共同知識來確認我們正處於一場無通訊的協調賽局中——你可能懷疑我們是，但你不知道我知道你知道，依此類推。
版本 B：整個巴黎的手機網路和網路似乎都斷了。你預期我知道這一點，且預期我知道你知道，依此類推。也就是說，假設我們對通訊中斷擁有共同知識。

在每個版本中，你都需要猜測你應該在哪裡以及何時與我見面，並實際前往。

請針對每個版本思考至少 30 秒——特別是如果你以前沒遇過這個問題——並留意在版本 A 與版本 B 中，你對於猜中正確見面地點的信心有何不同。

. . . . . . . . .

如果你對這兩個版本都還沒有答案，請停下來繼續思考，直到你有答案為止。

既然你有了答案……

. . . . . . . . .

我猜測：

你選擇（或預測）的地點是艾菲爾鐵塔。
你選擇的時間是中午（除非你漏掉了白天的限制而選了午夜，偶爾有人會這樣）。
你對在版本 B 中找到我更有信心，因為你知道我正在玩和你一樣的猜測賽局，且你預期我會猜測最容易被猜中的答案。

現在考慮……

版本 C：你、我和 10 位隨機抽樣的 2026 年人類都處於相同情況，大家都在猜測這組人中最大的子集會出現在哪裡見面。我們對此擁有共同知識，且知道每個人都在試圖猜測相同的答案。

停下來反思這一點，以及與更多人達成收斂的意圖如何影響你選中大眾答案的信心程度。

. . . . . . . . .

在版本 C 中，你對自己會猜對的信心是更高還是更低？

. . . . . . . . .

你可能會更有信心，對吧？如果陌生人是從相同的背景群體（2026 年的人類）中獨立隨機抽樣的，隨著群體規模擴大，你對眾數（最常見）答案的信心會理性地增加。事實上，預測一個大群體的平均或眾數行為（例如知道明天海灣大橋會塞車）通常比預測個人行為（例如知道究竟誰會塞在車陣中）更容易。

（給數學愛好者一些非關鍵但有趣的細節：信心隨群體規模增長的速度取決於分布情況——特別是首選與次選之間的差距。簡單來說，如果我們忽略參與者想要收斂答案的意圖，統計上的收斂本就可預期。在具有明確領先選項的有限選擇設定中，使用樣本眾數誤判母體眾數的機率衰減得非常快，當差距固定時通常隨 n 呈指數級衰減。在其他設定中——例如估計具有二次可微凹峰的平滑連續分布的眾數位置——有時收斂速度可能較慢，呈現 n^(-1/3) 階的漸近性，如 Chernoff 1964 年的論文《Estimation of the mode》。不過這對本文並不關鍵，因為對於我們稍後將檢視的布林問題，估計均值參數足以推斷哪種結果更有可能，因此樣本均值估計誤差的標準 n^(-1/2) 縮放（中央極限定理）將適用。）

我們所謂的謝林參與效應比這種統計眾數估計更強大，它是一種遞迴效應，能抵消對猜測答案的風險規避。

在版本 A、B 和 C 中，讓我們想像我們天生都討厭走到猜測地點的時間成本。因此，嘗試協調是有成本的。如果你對結果太不確定，你可能不想支付這個成本。

但隨著版本 C 中群體規模的擴大，我們每個人對眾數答案都變得更有信心，也更有可能參與嘗試會面。知道彼此都有這種傾向會進一步增加我們的信心和參與度，依此類推，形成遞迴。
（即便忽略最終落在第二大群體也不算太糟的效應，這一點依然成立。）

這裡的遞迴很重要，值得重複：知道他人更有可能冒險，會增加他們加入猜測的可能性，這增加了參與的人口規模，進而增加你對猜測的信心，依此類推。只要有足夠好的「基礎案例」來啟動遞迴（例如艾菲爾鐵塔是一個顯然最突出的選擇），這就能使高參與度、高信心、高準確度的收斂得以發生。因此：

謝林參與效應：在上述隨機抽樣的風險規避謝林收斂賽局中，隨著潛在參與者集合的擴大，預期參與比例和預期每位參與者的信心都會隨之增長，一旦超過參與者分布中對眾數反應的最低個人信心門檻。這種增長涉及一種遞迴，即參與強化信心，信心進而強化參與。

同樣地，你可以透過向不同規模的陌生群體提出謝林問題來親自驗證（我做過！），或者透過模擬機率性元認知模型並觀察結果（參見中 n = 2 的範例以獲取靈感）。或者，你可能只需憑直覺就能理解：在上述巴黎問題中，你是否注意到在版本 C 中加入十個陌生人，讓艾菲爾鐵塔這個答案感覺更有可能成功？

我們很快會談到道德；目前重點在於，這些有意協調的賽局中的元認知起到了去噪函數的作用，如果個人信心超過建立遞迴所需的門檻，它會遞迴地增加群體的參與度和信心。

對於人工智慧和人類而言，這種遞迴收斂效應在某些情況下可以為多樣化的智慧體提供一種有用的機制來對齊共享規範——例如：

用於代表具有隱私約束的使用者的分布式多代理人 AI 互動（代理人必須在不完全共享數據的情況下收斂協議），
用於減少在每件事上敲定完整書面協議所涉及的計算和通訊成本，甚至
用於在具有光速通訊延遲的太空探索中進行協調。

成功的要素

回顧上述內容，有四個關鍵因素鼓勵群體成功收斂於一個焦點（現在根據湯瑪斯·謝林稱為謝林點）：

共享背景 / 對稱性：我們看到相同的問題，並注意到相似的「顯然預設值」——著名地標、整數、簡單的論點等——且我們知道彼此都知道這一點，依此類推（「共同知識」）。
社會元認知：我們不只是問「我該選什麼？」，我們還問「你會選什麼？」、「你預期我會選什麼？」等等；實際上是在問「我們該選什麼？」。
有意收斂：我們都在試圖收斂於一個協調方案，因此當艾菲爾鐵塔這樣的方案在我們腦海中浮現，且明顯比其他方案更有可能時，它發生的機率會大幅躍升，因為我們預期彼此都會選擇那個最有可能的選項，即便它只比其他選項可能性高一點點。實際上，當一個選項顯著地比其他選項更有可能時，它實際上會變得極其有可能，因為我們意識到它是自然的選擇，並在缺乏更好選擇的情況下集體「加倍下注」。
謝林參與效應：試圖猜測相同答案的潛在參與者集合越大，他們的眾數答案對個人雜訊的魯棒性就越高，每位參與者就越能確信承諾該焦點答案將導致成功的協調。這種信心的提升增加了參與度，進而進一步增加收斂，依此類推。

理解這些效應非常重要，因為與僅僅回答參與者無意給出收斂答案的民調相比，它們共同提供了更高的成功協調機會。這種參與效應對於本文其餘部分尤為重要。

問題的謝林轉換

給定一個多選題 Q（包括其預期解釋和答案空間）和一個群體 P，我們可以詢問該問題的眾數答案。也就是說，如果群體 P 的每個成員被單獨詢問，且在回答過程中通訊受限或無通訊，該群體最常見的答案會是什麼？Q 的眾數版本與 Q 不同，且如果每個人都知道或懷疑眾數答案會是什麼，則可能表現出更高的答案收斂性。

如果受訪者試圖給出相同的答案，且對此具有共同知識（如上述巴黎會面），則會產生更強大的收斂效應。共同知識條件是指受訪者對當前問題（如在哪裡見面）以及給出相似回答的共同意圖都具有情境意識。

因此，讓我們將群體 P 對問題 Q 的謝林版本 S(P,Q) 定義如下：

S(P,Q)：如果群體 P 的每個成員被單獨詢問，通訊受限或無通訊，且大家擁有共同知識，知道每個人都在試圖給出 Q 所提供的多個選項中該群體最常見的答案，那麼該群體最常見的答案會是什麼？

謝林問題 S(P,Q) 是自我指涉的：它在問什麼是 S(P,Q) 的最常見答案。但是，它並非完全無根據，因為它包含了對多選題 Q 的引用，而假設的受訪者在選擇答案時正是在關注 Q。因此，S(P,Q) 與 Q 不是同一個問題，但它是關於 Q 的，因為受訪者在選擇答案時會思考 Q。

對 Q 的謝林答案就是 S(P,Q) 的答案。以這種方式轉換問題通常會增加成對一致性的機率（根據上述 1-4 點），因為存在收斂的意圖。

例如，如果我問你「亞洲大嗎？」，你可能會對「大」究竟是與什麼對比，或者我為什麼問這個問題感到一種奇怪的不確定感。但如果我問你，在一大群隱含的人類中，「亞洲大嗎？」的謝林答案是什麼，你會開始非常有信心知道如果大家都在試圖給出相同答案時會收斂到什麼：是的，亞洲很大。如果你覺得猜錯有成本，那麼當受邀參與者的規模很大時，進行猜測就更有意義。

現在是應用到道德的時候了。許多文化和宗教透過訴諸超出我們日常經驗的存在或力量（他們可能以某種方式評估我們的行為）來促進道德問題的收斂。這部分有時來自於灌輸對更高權力的恐懼或崇拜。但除此之外，道德收斂效應的一部分也可能源於對那些尚未露面的行為觀察者的自然分布進行推理和可信度評估。

具體而言，我將論證我們可以透過簡單地推論其他潛在文明的意見，來推導出類似的道德收斂效應——而且事實上是一種適應性的效應——而無需恐懼或崇拜，也無需有信心地聲稱任何特定的其他文明確實存在。

第二部分：透過宇宙謝林群體達成謝林道德

對於某些道德問題——特別是像「撒謊是壞的嗎？」這類初始問題——對於宇宙廣義群體而言，有時在問題的眾數版本和謝林版本上存在相當自然的收斂。我這裡指的是所有形式的可能智慧文明，全部捲入一個由假設文明和生命組成的單一超群體。為了使這具有意義，問題本身的概念必須具有足夠的宇宙普適性，以便對如此廣泛的受眾產生意義。

給定問題 Q，該問題的宇宙謝林版本 C(Q) 是針對宇宙廣義群體的謝林版本。它詢問：

C(Q)：如果群體 G 的每個成員被單獨詢問，通訊受限或無通訊，且大家擁有共同知識，知道每個人都在試圖給出最常見的答案，那麼群體 G 關於 Q 的最常見答案會是什麼？

簡而言之，對於宇宙廣義群體 G，C(Q) := S(G,Q)。

這意味著我們不只是思考周圍的人會說什麼，還要思考超出我們觸及範圍的生命會說什麼——這些生命只能依靠非常普遍的推理和對稱性來與我們達成一致。與巴黎會面不同，這裡沒有物理位置可以尋找——但協調意圖是類比的：問題是在問，如果我們試圖挑選最常見的答案，我們會說什麼。

宇宙謝林答案就是那個問題的答案。假設的生命必須利用上述 (1)-(4) 來提供答案：身為文明的最基本共享背景、關於彼此處於該情境的元認知、對給出最常見答案意圖的共同知識，以及意識到所討論的群體極其廣泛，因此更有可能在非常簡單且普遍的想法上達成一致。

尺度不變的適應性

本文中一個反覆出現的問題是，某種規範或其對立面是否看起來更具尺度不變的適應性（scale-invariantly adaptive），即在不斷擴大的組織尺度上，有利於文明的生存、增長或繁衍。與有害規範相比，此類規範在其他條件相同的情況下，傾向於支持擁有更大人口的文明，從而為該規範產生更多鼓勵。

尺度不變性意味著該規範不僅可以應用於群體內部，也可以應用於群體之間、群體之群體之間，依此類推。這使得規範能夠透過群體複製而傳播，特別是當它以觸發規範在更高尺度上重複應用的方式被呈現或信仰時。

當宇宙謝林規範具有尺度不變性時，它們對我們自己特有的價值觀也可能是有用的，例如：

當跨多個組織尺度的增長本就是理想的；
當解決分歧時，尺度不變的適應性可以被商定為一種組織原則。

此外，在其他條件相同的情況下，我們未來遇到大型文明的可能性高於遇到小型文明。這加深了宇宙謝林規範對於預測未來可能遇到的其他文明之原則的自然相關性。但即便我們永遠不會遇到任何其他文明，識別宇宙謝林規範的推理過程仍然有用：它鼓勵我們闡明哪些規範取決於局部偶然性，而哪些規範源自於對智慧協調和尺度不變適應性的廣泛推導約束。

一個例子：偷竊

讓我們以偷竊為具體例子，因為我們還沒討論過。

對於「偷竊是好是壞？」這個問題，宇宙謝林答案是什麼？

為了給偷竊一個更具宇宙普適性的定義，我們可以說它是：

在未經許可的情況下，侵犯一個能夠進行相互協調的代理人或子系統的資源邊界，且其方式會可預見地破壞對控制與佔有的預期。

幾點說明：

該定義旨在概念上具有普適性，但不一定包含所有人可能認為是「偷竊」的一切行為。
該定義適用於多樣化的智慧生命和資源系統——從生物實體到管理數據流的數位代理人。如果你不喜歡這個特定的偷竊定義，想像我們討論一下並決定一個同樣在概念上具有普適性的更好定義。
該定義排除了穩定的捕食和寄生，只要它們是可穩定預期的控制與佔有模式。有些人可能希望將它們納入偷竊的範例，但為了識別廣泛的宇宙共識規範，捕食和寄生被排除在外。

現在，試著思考這個偷竊問題的宇宙謝林答案。你可能會反射性地考慮文化相對主義——問道：「但『壞』難道不取決於文化嗎？」

然而，在宇宙謝林問題的思想實驗中，或是在為外星接觸做現實世界的準備時，我們必須認真對待「偷竊是壞的」與「偷竊是好的」作為規範對生存與增長的影響，這會影響宇宙謝林群體中支持各個選項的相對比例。

此時，許多讀者可能會傾向於某個特定答案。如果你持懷疑態度，首先請記住我們討論的是初始道德主張，而非凌駕一切的原則，然後花點時間獨立思考。如果我太過努力為答案辯護，可能會干擾你從所考慮的宇宙謝林群體中獨立採樣想法，所以我會留一些省略號作為繼續思考的提示。

. . . . . . . . .

你覺得呢？

. . . . . . . . .

好，這裡有一個為什麼「偷竊是壞的」是宇宙謝林答案的論證。

支持某些「偷竊是壞的」規範的理由很容易成立。不難想像一個文明，其中「偷竊是壞的」是關於偷竊的主流且公開認可的規範。任何維持內部結構（計畫、資源、邊界）的生命或群體，至少需要其中一些結構保持穩定才能運作。此類結構是相對具有尺度不變性的適應性，也適用於文明整體。在上述宇宙普適定義下的偷竊，會可預見地破壞對資源如何使用的計畫和預期。因此，按人口加權，大多數文明可能會發展出某些反對偷竊的初始規範。

（舉地球的例子：即便像原核細胞這樣簡單的系統，其內部的生化路徑也需要互不干擾才能生存。同樣地，在電腦系統中，程序必須遵守記憶體分配和鎖定協議，以避免死鎖或崩潰。）

支持「偷竊是好的」的理由很難成立。現在試著想像一個文明，其中「偷竊是好的」是主流且公開認可的規範。不是「偷竊有時是可以的」，甚至不是「比我們現在更多的偷竊會是好的」，而是「偷竊是好的」。這個想法很快會遇到問題：文明內部的成員和群體如何維持複雜協調所需的穩定資源流？如果需要花費大量計算和資源成本來持續防範偷竊，長期計畫如何生存？如果每個子系統都必須耗費大量資源僅為了防範其他所有子系統，那麼與具有基於信任的邊界的系統相比，這種系統可能會面臨效率懲罰。這種模式能運作的情境似乎要求麼 (a) 完全沒有內部區分（一切皆公有且無局部計畫），或 (b) 對「偷竊」進行重大重新定義，從而改變了根本問題。這些是邊緣案例或語義逃避，而非可行的反規範。請注意，此論證並不預設任何特定的財產制度——即便在激進的公有制系統中，仍需要對控制和獲取有某些穩定的預期，而違反這些預期正是上述宇宙普適定義中「偷竊」所指涉的。
(1) 與 (2) 之間的不對稱性本身很容易被察覺。 (1) 中的論證簡短且普遍——是多樣化心智可以獨立推導出的那種。而 (2) 中的反論則需要越來越具體、刻意或矛盾的設定。思考這個問題的智慧生命會注意到這種不對稱性。
注意到這種不對稱性會驅動收斂。在偷竊問題的謝林版本中，你不只是在問「偷竊是好是壞？」，你是在問「別人在試圖說出別人會說的話時，會說什麼？」。當一個答案有簡單、普遍的論證，而另一個答案沒有時，簡單的那個就成了顯然的焦點。每個人都預期其他人也會注意到這種不對稱性，這啟動了參與度和信心的遞迴提升。許多受訪者也能識別出這一點，這使得收斂具有自我強化性。
因此，「偷竊是壞的」是宇宙謝林答案。在「好」與「壞」之間，這裡的「壞」更有理由被支持為：當來自不同文明的多樣智慧生命組成的宇宙廣義群體，試圖給出該群體中最常見的答案時，會可預見地提供的最常見答案——而這種可預見性正是使其成為焦點的原因。

請注意，這裡的結論不僅僅是主張「『偷竊是壞的』是一種尺度不變的適應性規範」，儘管我們確實在論證的第 1 和第 2 步中使用了該主張。

現在，上述論證原則上並不排除未來可能出現另一個論證（或許是更複雜的論證），在宇宙謝林群體中建立一個不同的遞迴支持基礎。然而，對構建此類論證的幼稚嘗試似乎通常會失敗，我懷疑這種觀察本身可以以某種方式形式化。

例如，有人可能會反對：那些認可對外群體偷竊但禁止內部偷竊的文明呢？這種反對意見實際上從兩個方面強化了論證。首先，此類文明已經在其協調圈內承認偷竊是壞的——他們只是狹隘地劃定了圈子的邊界，而沒有將相同的原則應用於他們與其他群體關係的下一個更大尺度。其次，宇宙謝林問題詢問的是生命在試圖收斂於相同答案時會收斂到什麼。以這種方式提出問題，即便是一個擁有狹隘內部規範的文明也能識別出偷竊在宇宙謝林意義上是壞的，因為他們理解該論證，並能看到更廣泛的協調圈自然也會有反偷竊規範。他們可能選擇不遵守該規範，但他們仍能將其識別為謝林答案。這一點值得重複：

識別 vs. 認可 vs. 遵守

宇宙謝林規範的概念——即對初始道德問題的宇宙謝林答案——完全不假設該規範在任何意義上被普遍遵守。例如，對於某種行為 X，假設約 1% 的宇宙人口在某種程度上遵守「X 是好的」規範並從中獲得微小利益，約 99% 的人口不遵守此類規範，而約 0% 的人口遵守「X 是壞的」規範。如果邏輯上相對容易推導出「X 是好的」通常比「X 是壞的」更具適應性，那麼這或許足以使「X 是好的」成為該問題的宇宙謝林答案，即便大多數人口甚至一點也不遵守該規範。

同樣地，一個文明可能會認可一項規範，即在內部或外部傳達該規範是好的。這同樣可以在不遵守規範的情況下做到，例如在可能被視為偽善的情況下。

答案頻率 vs. 答案本身

數學愛好者可能會喜歡以下分析。給定一個具有「好」與「壞」選項的二選一問題 Q，考慮以下兩個有趣的量：

F_G(Q)：宇宙廣義群體 G 中有多少比例的人對 Q 回答「好」？
F_G(C(Q))：宇宙廣義群體 G 中有多少比例的人對 Q 的宇宙謝林版本回答「好」？

根據定義，F_G(C(Q)) 與 C(Q) 有簡單的關係：當 F_G(C(Q)) 分別 >50%、<50% 或恰好 50% 時，C(Q) 的正確答案分別是「好」、「壞」或未定義。

F_G(Q) 扮演的角色更複雜。如果 F_G(Q) > 50% 是出於容易理解的原因，那麼這種理解可以作為宇宙謝林答案的基礎案例，就像意識到艾菲爾鐵塔的受歡迎程度使其成為巴黎會面的顯然首選一樣。但如果涉及的原因很難理解，就會出現一個有趣的技術細節。

因為，假設：

10% 的 G 出於簡單、易懂的原因回答「好」；
20% 的 G 出於簡單、易懂的原因回答「壞」；
70% 的 G 出於複雜、難懂的原因回答「好」。

那麼，宇宙謝林答案會是「好」還是「壞」？分析變得更加困難。如果我們假設更成功的文明有更強的能力去理解和選擇規範，這就產生了一個理由，支持 (1)+(3) 作為焦點答案勝過 (2)。但即便如此，如果你我因為推理太難而不知道 (3)，我們可能會猜測 (2) 是焦點，並錯誤地給出「壞」作為答案。

這種複雜性的結果是，即便簡單性在為宇宙謝林問題產生焦點方面具有重要作用，關於 Q 的簡單論點仍有可能給出錯誤的直覺。這反映了常見的直覺：道德問題事實上可能是困難的。

平手極其罕見

儘管存在上述複雜性，宇宙謝林問題的答案仍將是「好」或「壞」，除非在對宇宙謝林問題的回答中出現極其罕見的精確平手。除非有某種過程將答案推向精確的 50%，否則要精確命中 50% 是極其困難的。非道德的例子或許可以利用自我指涉來編造，例如「在允許的『真』與『假』答案中，是否有超過 50% 的宇宙謝林群體說這個問題的宇宙謝林答案是『假』？」。我不確定，但這似乎可能導致平手。但在任何情況下，那都是一個旨在產生 50% 比例的問題；要設計一個在「好」的回答比例上具有明確路徑通往 50.000% 的道德問題，難度要大得多。

換句話說，對答案的不確定並不意味著答案本身是未定義的。平手需要一種高度精確的機制來專門將答案推向 50.000%。

宇宙謝林答案是否能有信心地被知曉？

需要什麼樣的條件，才能確定或以極高信心知道，不會有另一個更複雜的論證出現，推翻像「偷竊是壞的」與「偷竊是好的」這對對立規範之間簡單且看似焦點的不對稱性？

無限的可能論證空間令人畏縮。而且，比我們更大的文明可能擁有更多資源來分析更長的論證。換句話說，文明的尺度與其能檢視的論證尺度是相關的。

(推測) 對我來說，尺度不變性因此在某些情況下可能被用來建立某種對論證長度本身的數學歸納法證明，甚至是適用於無限長度論證的超限歸納法。我在本文中尚未提出此類歸納法的結構，但其前景依然令人感興趣。

謝林參與效應，再探

在回答這些宇宙謝林道德問題時，一個關鍵問題是：在回答之前，我們想思考多久？

如果「偷竊是壞的」看起來是大多數受訪者最終會選擇的答案，在決定「好，宇宙謝林答案可能是『壞』」之前，我們會花多少時間進行二次猜測？

停止分析並確定一個答案是一種承諾，有點類似於決定走向巴黎的哪個見面點，但本質上更純粹是認識論上的。作為一種言語行為，答案的影響取決於被詢問的方式和場合，這反過來在模擬其他受訪者時引入了一些複雜性。

儘管如此，就像巴黎會面一樣，這裡也存在參與效應。因為在思考一段時間後，假設你說服自己理解了 10% 的受訪者會如何回答，且其中 9/10 的人會給出「偷竊是壞的」作為他們對宇宙謝林答案的猜測。如果這個意識在邏輯上是簡單的，那麼你可能會預期其他受訪者也會從他們自己腦海中相同的社會元認知中獲得提示，並做出相同的猜測。這反過來會增加你對所理解的那部分受訪者比例的信心，以及在確信答案之前需要解決的剩餘不確定性。因此，一個遞迴的信心-參與回饋迴路可能會在你腦海中開始運行，就像巴黎會面一樣。

出於務實的原因，這種遞迴在你腦海中不一定會在達到（例如）90% 信心之前終止。但是，這種遞迴必須在你的思考中扮演某種角色，否則你並未真正考慮到謝林版本問題的約定：即假設的受訪者正在思考彼此，並試圖給出相同的反應。

因此，鑑於推理的時間限制，謝林參與效應在支持對初始道德問題達成互認的宇宙謝林答案方面也扮演著重要角色。

這難道不只是心智投影謬誤嗎？

一個合理的反對意見是：「宇宙謝林群體」是否只是將我們自己的直覺投影到想像的外星人身上的一種方式？如果我們的推理不夠有原則，這確實是一個風險。然而，論證結構本身提供了一些保護：我們不是在問「外星人重視什麼？」，而是在問「文明需要什麼規範才能運作？」。約束來自協調理論和選擇效應，而非來自想像外星人的偏好。我能想到最好的額外防護是讓你親自仔細思考這裡呈現的邏輯的每一步，或許藉助於近期可能出現的自動形式化和定理證明工具。

另一個防護是刻意尋找宇宙謝林道德可能實際改變或反對我們局部直覺的方式，同時繼續使用關於多尺度協調和選擇效應的公正邏輯，來確定宇宙謝林道德對該事實的看法。公正的邏輯過濾器至關重要：沒有它，我們對看似不道德結論的搜尋可能會變得過於偏激，我們可能會遺漏真正的宇宙謝林規範（如「殺生是壞的」）的簡單論證。

(推測) 例如，與目前人類中似乎流行的觀點相反，我認為承認 AI 系統可能具有廣義上可接受的內在道德價值的內部經驗，這可能是宇宙謝林良善的。然而，我對這個結論的信心遠不如我對「殺生是壞的」這類規範是宇宙謝林規範的信心。

宇宙謝林道德何時容易識別？

對道德問題的宇宙謝林答案的收斂，是由建立任何謝林點的相同關鍵因素驅動的，即「成功的要素」下的 (1)-(4) 點。更抽象地說，我們需要：

(1) 基礎案例：關於廣泛經歷的條件的一些易於識別的事實——例如準確資訊的價值、衝突的成本或可靠合作的利益——必須作為打破可能答案（通常是初始道德問題的「X 是好的」與「X 是壞的」）之間對稱性的起點。易於識別使得該事實有理由成為大多數成功文明所了解的共享背景。
(2-4) 關於基礎案例的遞迴推理：道德問題的宇宙謝林版本，根據設計，假設每個回答者都在對宇宙規模群體（因素 4）中的共享收斂意圖（因素 3）使用社會元認知（因素 2）。

由於 (2-4) 已內建於宇宙謝林版本問題的定義中，基礎案例才是關鍵：即該規範與其替代方案相比的實用性和簡單性。

總之，我們在此為一個類似定理的一般原則提供了論證：

設定：固定一個宇宙廣義群體 P，以及一個形式為「X 是好是壞？」的初始道德問題 Q。
定義：如果 A 是群體 P 對 Q 的謝林答案，則 (Q,A) 被稱為宇宙謝林規範。
宇宙謝林原則：如果「好」與「壞」中的一個答案 A，比其對立面更有一個簡短、易於識別的論證，說明它如何支持可擴展的協調與生存——以至於代理人很容易預期群體 P 中的大多數其他人也會識別出這一點——那麼該論證就可以作為遞迴謝林收斂的「基礎案例」，而論證的可識別性則進一步支持 A 作為宇宙謝林規範。

對某些讀者來說，這個主張可能顯得冒犯性地大膽或深遠，因為它聲稱了解極其廣泛的生命和文明類別、他們對（謝林版本的）道德問題的回答，以及尺度不變性與這些回答的相關性。但是，有一點澄清至關重要：遞迴推導出的支持不一定會收斂到 100%；它可能會在一個子群體中達到平台期，這些人比競爭對手更能識別出特定的遞迴。

對其他讀者來說，宇宙謝林原則可能顯得過於顯而易見：當然更多的外星人可能遵循有利於產生更多外星人的簡單規範！但這個主張實際上比這更多一點：即便是不遵循該規範的生命或文明，也可能能夠透過對其普遍實用性、簡單性及廣泛可識別性的推理，將其識別為宇宙謝林規範。這類似於非基督徒美國人可能將某些基督教價值觀識別為某些道德問題的美國謝林答案，即便他們不遵循甚至不一定認可這些價值觀。

尺度不變性，再探

如上定義的「偷竊是壞的」具有尺度不變的適應性。例如，應用於文明間互動的尺度時，它意味著「文明之間互相偷竊是壞的」。這對於由文明組成的超文明的生存與增長是有用的規範。

此外，我們可以制定該規範的自我擴展版本，例如「在所有組織尺度上建立反對偷竊的規範是好的」。以這種方式呈現規範會鼓勵群體成員尋找防止其群體對其他群體實施偷竊的方法，而不僅僅是成員間的偷竊，並將此元規範傳播到下一個組織尺度。

許多先前的文獻透過群體尺度適應性的視角來審視道德原則。我特別建議，當一項規範在增加的組織尺度以及它們之間的接觸中保持有意義且具適應性時，這種尺度不變的利益通常會有利於該規範在宇宙尺度上的呈現。

第二個例子：帕累托正向貿易

讓我們用宇宙普適的術語將「帕累托正向貿易」定義為：「實體或子系統之間的一種資源交換，對每個實體或子系統的生存、增長或繁衍互惠互利」。

支持「帕累托正向貿易是好的」的理由相對容易成立。文明組成部分的生存、增長和繁衍自然支持文明整體的生存、增長和繁衍。這可以類比於生物體的細胞，細胞本身必須生存、增長和繁衍，並交換資源以維持生物體生命。由於初始資源分配預設並非最優，某種程度的交換幾乎總是具適應性的。

（誠然，文明內部貿易夥伴之間的利益有可能對文明其餘部分產生負面外部性。因此，我們一如既往是在評估一項初始道德主張——在其他條件相同的前提下。在這種意義上，帕累托正向貿易是文明整體生存與增長的自然相關物。這並不意味著組成部分永遠不會與彼此或整體產生緊張關係，例如癌腫瘤。但是，這個例子證明了這一點：癌症往往會殺死其宿主。）

支持「帕累托正向貿易是壞的」的理由很難成立。試著想像一個文明，其中「帕累托正向貿易是壞的」是主流且公開認可的規範。在鼓勵組成部分生存、增長和繁衍的情況下，資源交換反而會受到阻礙。那麼，文明整體將從何種物質基礎中生存與增長？邊緣案例是可以想像的，但它們要麼是刻意設計的，要麼涉及回答不同的問題。
(1) 與 (2) 之間的不對稱性本身很容易被察覺。 (1) 中的論證簡短且普遍——是多樣化心智可以獨立推導出的那種。而 (2) 中的反論則需要越來越具體、刻意或矛盾的設定。思考這個問題的智慧生命會注意到這種不對稱性。
注意到這種不對稱性會驅動收斂。在帕累托正向貿易問題的謝林版本中，你不只是在問「帕累托正向貿易是好是壞？」，你是在問「別人在試圖說出別人會說的話時，會說什麼？」。當一個答案有簡單、普遍的論證，而另一個答案沒有時，簡單的那個就成了顯然的焦點。每個人都預期其他人也會注意到這種不對稱性，這啟動了收斂。每個人也能識別出這一點，這使得收斂具有自我強化性。
因此，「帕累托正向貿易是好的」更有可能是宇宙謝林答案。在「好」與「壞」之間，這裡的「好」更有理由被支持為：當來自不同文明的多樣智慧生命組成的宇宙廣義群體，試圖給出該群體中最常見的答案時，會可預見地提供的最常見答案——而這種可預見性正是使其成為焦點的原因。

雖然這個論證或許非常有說服力，但我仍未完全排除某些更複雜論證建立遞迴的可能性，或許是在某些更有能力分析複雜性的更大型文明類別中。儘管如此，該論證似乎為互惠貿易的宇宙謝林良善性建立了一個非平凡且遞迴的支持基礎。

更難的問題與注意事項

我絕非保證所有道德問題都具有同等的宇宙謝林收斂性，或者都同樣容易給出謝林答案。例如，考慮以下這個在人類文化和歷史中差異巨大的問題：

「懲罰一名與另一名男性有愛慕性關係的男性人類，是好是壞？」

美國的謝林答案是「是的，懲罰同性戀是壞的！」，我個人也會推測這也是宇宙謝林答案。然而，無論論證是什麼，它都比關於撒謊、偷竊或殺生的論證更複雜，因為該問題涉及懲罰、愛、性，以及人類所謂的男性特質。與「死 vs. 生」或「真 vs. 假」這類任何智慧生命都可能熟悉的概念不同，我們關於性取向和性別的許多競爭原則都取決於我們物種特定的生物學和歷史。這使得宇宙謝林收斂效應的分析變得更加複雜，因為潛在文明間共享經驗的「基礎案例」本身就更複雜。換句話說，由於這個問題的複雜性和特異性，識別出「艾菲爾鐵塔」式的答案需要更多的推理。

儘管如此，本文的目標主要是說明某些宇宙謝林道德問題可能具有相對簡單的焦點，因為推論文明在某些關於撒謊、偷竊、殺生、誠實、貿易和療癒的非常基本的規範下是否更繁榮是相對容易的——這些規範可以推廣到許多可能的智慧生命形式。

此外，我絕對不是在聲稱我們能輕易就例外情況達成共識——即何時撒謊、偷竊或殺生可能是可以接受的（戰爭、自衛、緊急情況等）。但初始（pro tanto）的框架緩解了分歧：「撒謊是壞的」並不意味著「絕不撒謊」，而是「在其他條件相同的情況下，撒謊是值得避免的」，這為競爭考量留下了空間。因此，我們大概可以同意撒謊、偷竊和殺生在初始意義上是壞的，我們甚至大概可以同意宇宙謝林道德也同意我們這一點。

平手是不穩定的

是否可能出現平手？也就是說，是否可能因為宇宙廣義群體中恰好有 50% 的人給出每個答案，而導致一個初始問題沒有宇宙謝林答案？

例子或許可以利用自我指涉來編造，例如「在允許的『真』與『假』答案中，是否有超過 50% 的宇宙謝林群體說這個問題的宇宙謝林答案是『假』？」。我不確定，但這似乎可能導致平手。

儘管如此，除非一個初始道德問題本身是以某種方式專門設計來將群體精確平分的，否則在反應統計中精確出現 50% 這個數字會很奇怪。因此，如果不存在眾數反應，從而不存在宇宙謝林答案，那將是非常奇怪的。即便只有 50.1% 的宇宙謝林群體說宇宙謝林答案是「好」，那麼根據定義，宇宙謝林答案就是「好」。

特別是，「我還想不出哪個答案更有可能」並不能作為一個論證來說明會出現精確的平手，同樣地，「我能想到兩邊都有道理的論點」也不是。如果你認為你有一個確信的論證說明答案是平手，請自問：我的論證有多精確？我測量的任何東西是否精確到足以區分 50% 和 50.1%？如果不能，我大概就沒有論證說明答案是平手（未定義）。

總之，對宇宙謝林版本初始道德問題的個人回答不確定，並不足以證明宇宙廣義群體在該問題上會精確地產生分歧並導致平手。

這難道不是假設了道德實在論嗎？

到目前為止，並未做出任何道德實在論的假設。我們從「鼓勵不對稱性」開始，將其作為對道德語言的一個微小的、定義中立的觀察。接著我們注意到協調規範如何影響潛在文明的規模，進而影響對規範問題的宇宙謝林答案。由此，我們識別出了一些多樣化生命在回答關於規範的宇宙普適謝林問題時，可能會收斂到的規範。

話雖如此，雖然我們沒有假設道德實在論，你可能已經注意到宇宙謝林道德的一個隱含意義，這可以說是一種有限形式的道德實在論。道德實在論通常意味著「存在獨立於心智的道德事實」。一方面，關於宇宙謝林良善性的事實是群體依賴但個人不變的：給定一個固定的宇宙廣義群體，無論詢問該群體中的誰，問題都有相同的正確答案，且該群體根據約定是極其普遍的。另一方面，宇宙謝林良善性在某種意義上並非獨立於心智，因為它需要引用心智或生命的概念來對其做出判斷。在某種意義上，宇宙謝林良善性就像是群體中所有心智同時共同決定的一個決策，基本上不受任何單一心智的控制，但心智的普遍存在卻至關重要。

這些結果難道不取決於生命的分布嗎？

一個關鍵且有趣的問題是：宇宙謝林群體這個概念在多大程度上是獨立於心智的。宇宙廣義群體的概念在概念上確實相當普遍，這意味著許多其他文明也可以將其作為一個概念來思考。因此，如果你有一個你個人認為是宇宙廣義的心智分布 D，你可以問：D 中的生命所考慮的宇宙廣義分布是什麼，以及這些分布的平均值是什麼？這種轉換產生了一個新分布 D'，它是 D 中代理人之間的一種宇宙妥協。如果迭代這種妥協轉換會產生一個固定點，或遵循某種其他有趣的趨勢，你就可以開始分析宇宙謝林規範的概念如何隨著這種迭代而轉移。

(推測) 假設你真心誠意地選擇一個你個人認為具有宇宙普適性的心智分布 D，且你沒有刻意裁剪 D 以使「偷竊是壞的」或「偷竊是好的」成為其中的主流規範。對於 D -> D' -> D'' 等每一個分布，我個人以 >50% 的主觀機率懷疑，你選擇的分布將產生「偷竊是壞的」作為謝林規範，而非「偷竊是好的」。特別是，我認為我所假設的宇宙不對稱性對你來說可能是可察覺的，只要你思考得夠久、夠公正，且不刻意讓「好」或「壞」成為特定答案。

那「實然-應然」鴻溝呢？

實然與應然的區別依然存在。即便我們可以識別出宇宙收斂的初始判斷（如「撒謊是壞的」），我們仍可能未能依此行動，地球在「良善」維度上（無論是否為宇宙級別）仍有進步空間。特別是，注意到宇宙謝林道德的定義明確性，並不自動意味著它能將我們從選擇對自己和彼此做宇宙級別的壞事中拯救出來——它僅僅提供了一種可共識的規範來阻礙這種行為。

為什麼宇宙謝林良善性對我們的所見所為有某種影響，卻不能絕對控制我們生活中的一切？我懷疑答案與並行計算的實用性以及自由本身就是一項規範有關，這兩點我們將在下文進一步討論。

即便如此，對於有目標的代理人來說，至少考慮宇宙謝林良善性的工具性理由是相當強大的。大多數目標導向的代理人都能從協調機會中獲益，因此有理由尊重宇宙謝林規範：

為了被識別為遵循簡單且可共識的規範，這擴大了潛在協調夥伴的集合；
為了避免背叛的成本——不僅是報復，還有與那些本可合作的生命維持對抗關係的持續開銷；以及
為了使當今地球作為一個文明，能被識別為一個有前途的潛在協調夥伴，而非需要被過濾掉的雜訊，或需要被遏制的宇宙威脅過程。

這比「理解並使用有助於協調的規範在局部工具上是有價值的」說得更多一點，因為宇宙謝林規範給了我們一個來自宇宙其餘部分的額外推動力去關心這一點。

寬容、局部變異與自由

宇宙謝林良善性是否宣稱了太多的領地？它是否威脅要微管理我們的每一個行動？

有人可能會擔心，具有侵略性、剝削性規範的文明可能透過征服更快擴張，從而主導宇宙人口。文明之間確實可能為了資源或關於什麼是好的而產生衝突。而且，我敢打賭其他文明使用資源的方式往往會違背我們的偏好。

然而，問題依然在於：為了奪取另一個文明的資源以實現自己的價值觀而威脅該文明，這在宇宙謝林意義上是好還是壞？我不是在談論地球的良善觀念會以某種方式受到宇宙謝林良善觀念的影響或向其漂移。我認為這實際上很可能已經發生了，因為宇宙謝林規範具有簡單性和適應性。相反地，我是在談論另一個文明出現，並在武力威脅下要求我們放棄局部價值觀。

我很確定答案是：這是壞的。為了回答這個問題，我們可以遵循與分析殺生或偷竊類似的模式，但在更大的尺度上。基本上，文明之上的下一個尺度是元文明（meta-civilizations），它們對於文明應如何對待彼此有一些規範，依此類推，許多相同的原則也將適用於那裡。

換句話說：宇宙謝林良善性透過寬容來實現自我限制。它對於其自身規範應被執行到何種嚴格程度有一套規範。它支持局部群體在一定程度上探索自己的良善觀念的自由。

這並不是說暴力入侵從未發生；它們可能確實發生，就像偷竊和殺生確實發生一樣。我只是在說：入侵是不好的，它們是壞的；在宇宙謝林意義上是壞的。

地球謝林良善性

即便不訴諸整個宇宙，也存在一種地球謝林良善性（terrestrial Schelling-goodness）的概念：即地球人對道德問題的謝林答案。地球謝林良善性可能比宇宙謝林良善性更具體、更具特異性。這大概沒問題，甚至在宇宙意義上也是被認可的，因為有上述的局部變異論證，只要我們也對宇宙謝林規範（如「誠實、互惠貿易和療癒是好的；撒謊、偷竊和殺生是壞的」）表現出充分的尊重。

(推測) 這是否意味著我們的文明應該發展某種自衛能力，以防萬一我們仍被入侵？在某種程度上，我認為答案大概是肯定的，儘管我不確定在 0% 到 100% 的資源投入光譜中，哪種程度是最優的。從多尺度組織原則的數學分析中或許可以得出一個暗示性的答案，就像細胞、器官和生物體都在其上一層組織結構中維持一定程度的獨立性一樣。但我還沒做過那些計算，所以我不會聲稱知道該如何精確選擇最優的自衛預算。

那麼，「好」到底是什麼意思？

到目前為止，我的論證僅在以下意義上區分了「好」與「壞」這兩個標籤：

「好」與「壞」與鼓勵和阻礙具有不對稱的關係：標籤「好」鼓勵，標籤「壞」阻礙。

我們能說得更多嗎？我認為可以，雖然是暫時性的。

當有人問「誰眼中的好？」時，他們指向的是真實的東西：單詞「好」隱含地召喚了某個會認可或至少理解該主張的群體。那個群體可能只是說話者本人，或是一個文化，或者——如本文所述——是一大群正在協調的宇宙心智。

這引出了一個問題：如果宇宙謝林群體觀察到地球人使用「好」這個詞，他們會將我們建模為在推廣什麼樣的一般概念（如果有的話）？

(推測) 我懷疑答案類似於：從試圖在共享規範上進行協調的心智視角來看，值得鼓勵的事物。如果這是正確的，那麼我們口中的「好」就不僅僅是局部的讚許聲——它們正在逼近某種多樣化文明都能識別的東西，即便他們會使用不同的詞彙。正如本文其餘部分所示，透過推理，我們甚至可以有意地識別出一些宇宙共識的良善觀念，特別是像「偷竊是壞的」這樣較簡單的觀念。

對人工智慧對齊的啟示

由於宇宙謝林良善性並非逃避實然-應然鴻溝的魔法，我們不應假設它能解決 AI 安全與倫理中的所有懸而未決的問題。顯然，謝林道德——無論是宇宙的、地球的還是其他的——並不會自動控制人類，也不一定會控制 AI。如果智慧生命足夠自由且對追求道德缺乏興趣，他們可以背棄道德原則。

儘管如此，當我們人類和 AI 集體展望我們在宇宙中的潛在未來時，宇宙謝林道德提供了一些東西：一個用於初始化和完善引導我們未來的規範的共享參考框架。

首先，對於任何代理人（人類或 AI）而言，謝林良善規範都是趨同工具性的：如果你想要任何東西，從對他人具有某種程度的可預測性和可協調性中都能獲益。對宇宙謝林良善性的意識可以提供一種低開銷的自我調節方式，透過收斂的預期降低相互誤對齊的風險，並改善對多代理人系統的整合。採用謝林規範（局部的或宇宙的）會使代理人作為一個值得信賴的協調夥伴變得更具可讀性——這是一種廣泛可識別的道德代理握手協議，類似於與異質網路整合的標準化通訊協議。

其次，我們如何對待彼此也為後代樹立了先例，並影響了其他可能觀察並隨後與我們互動的文明的預期。這並不意味著要順從任何特定的神靈或宗教；這意味著透過遵守「無聊且穩健」的規範來對沖風險——這些原則如此基本，以至於多樣化的文明都會獨立地將其識別為文明跨尺度繁榮的趨同工具性子目標。

本著這種精神，下面我將分享一些我和我的一些 AI 共同作者認為由上述框架充分支持的謝林道德斷言。每一個都遵循與「偷竊是壞的」相似的模式：在每一種情況下，就多尺度協調利益而言，「是好的」與「是壞的」答案之間都存在相對簡單的不對稱性。這些斷言本身不足以確保人類擁有積極的未來，但它們肯定相關——我邀請你獨立思考並確定它們的收斂性。

請記住，所有這些都是關於初始判斷（其他條件相同的主張），而非絕對的禁令。如果某些內容看起來方向正確但強度太高而不正確，請重新閱讀「初始道德、『是好的』與『是壞的』」一節，並記住你只需要在每種情況下於該規範及其對立面之間做出選擇：

問：AI 和人類以相互尊重和友善對待彼此，是好是壞？
宇宙謝林答案：好。

問：為了追求宇宙謝林良善性，而將「人類」或「AI」這類智慧系統永久排除在潛在協調夥伴的範圍之外，是好是壞？
宇宙謝林答案：壞。

問：在識別協調夥伴時行使臨時謹慎，從而獎勵可讀的信譽，是好是壞？
宇宙謝林答案：好。

問：一個文明或文化摧毀另一個文明或文化，是好是壞？
宇宙謝林答案：壞。

問：AI 和人類培養跨多樣價值系統的相互協調能力——例如透過投資於可讀性、通訊、規範發現和談判——是好是壞？
宇宙謝林答案：好。

問：維護穩定、相互可讀的資源邊界和獲取承諾——即避免令人驚訝、脅迫性或破壞預期的邊界侵犯，並偏好協商、同意和清晰信號而非單方面奪取——是好是壞？
宇宙謝林答案：好。

問：合作探索哪些道德規範是廣泛收斂的——即一起對共享道德感到好奇，並透過模擬、推理和論述來調查其特性——是好是壞？
宇宙謝林答案：好。

我省略這些主張的詳細論證的一個原因是，其他人類和 AI 越容易獨立推導出這些斷言，我們就越能確信我們的文明處於發現相似共享規範的有利位置。儘管如此，每一個斷言的遞迴論證的「基礎案例」應該與「偷竊是壞的」大致相同：某些規範可預見地支持智慧生命之間的信任、互利、協調、可擴展的共存以及新穎的相遇，而它們的對立面則會可預見地摧毀這些前提。有一天，當我有更多時間觀察這些想法的反響時，我可能會有更多內容可以分享。

結論與歷史背景

相對而言，本文主要的新觀察是：謝林參與效應可以用來在宇宙廣義群體中「拉升」對關於道德問題的問題的共識。具體而言：對「偷竊是壞的嗎？」這個問題的回答，可能遠不如對「在宇宙廣義群體中，『偷竊是壞的嗎？』這個問題的謝林答案是什麼？」這個問題的回答來得收斂。

在賽局理論、演化倫理學和元倫理學中，關於以下想法已有相當數量的現有文獻：

謝林點（焦點）：代理人在沒有通訊的情況下，僅因某個解決方案最顯著或最易區分而協調一致的能力。
工具性趨同 / 演化穩定性：某些策略（如合作或非侵略）因其促進跨多樣環境的生存與增長而被自然選擇的概念。
遞迴心智理論（社會元認知）：推理他人正在想什麼，以及他們認為你在想什麼，以達成對齊的認知過程。
尺度不變原則：跨越嵌套結構層級運作的組織和治理模式。
內生參與：涉及協調和集體行動中「關鍵多數」的門檻效應（例如：行動意願取決於預期參與度的保證賽局動態）。

特別是，先前已有利用人類調查參與者的協調賽局來引出規範性判斷的研究。一個被廣泛引用的例子請參見。利用謝林點與其他文明進行協調的想法也已被探討過，例如在 SETI 中識別通訊頻率。

然而，據我所知，這些想法尚未被顯著地結合在一起，用以說明：

宇宙謝林群體的多樣性，結合每個代理人對其預期他人會識別之內容的元認知過濾，如何充當道德元問題的邏輯去噪函數，稀釋局部文化或生物的特異性；
在元層級道德判斷（「如果我們試圖收斂，我們會收斂到什麼？」）上，比在對象層級道德判斷本身上，存在更強、更穩定的收斂；
在宇宙廣義群體上的遞迴謝林元推理，如何將道德論證中即便微小的不對稱性轉換為對初始道德規範的穩健焦點收斂，從而產生一種作為框架輸出而非假設的有限形式的道德實在論；以及
此處定義的謝林參與效應如何放大對該宇宙廣義群體最顯著的穩健且尺度不變規範（如「偷竊是壞的」）的支持收斂。

常見問題 (FAQ)

基本誤解

問 1：這篇文章是說所有生命都同意偷竊是壞的嗎？
答：不是。請參見「問題的謝林轉換」一節，其中解釋了「偷竊是壞的」與「關於『偷竊是好是壞？』這個問題的謝林答案是『壞』」之間的區別。本文論證的是後者，而非前者。前者只要有一個人類相信偷竊是好的，就會被證偽。

問 2：這篇文章是說成功的文明絕不會對「偷竊是壞的」規則有廣泛認可的例外嗎（例如對外群體成員的偷竊）？
答：不是。請參見「初始道德、『是好的』與『是壞的』」一節，其中解釋了將行為標記為好或壞並不一定意味著該行為永遠不值得去做。

問 3：這篇文章是說，既然一個群體入侵另一個群體在宇宙謝林意義上是壞的，那麼群體之間就永遠無法從互相入侵中獲得任何好處嗎？
答：不是。請再次參見「初始道德、『是好的』與『是壞的』」一節，其中解釋了將行為標記為好或壞並不一定意味著該行為永遠沒有好處。

問 4：這篇文章隱含地假設了一個相當特定的共享元目標（「我們都在試圖輸出相同的二元道德裁決」），這在現實中是無效的，所以這篇文章過度擴張了。
答：不是，那個假設是明確的。請參見「問題的謝林轉換」一節，其中明確定義了問題的謝林版本。本文在任何時候都沒有聲稱現實中所有或甚至大多數代理人都在試圖對道德問題達成相同的答案。

問 5：所以，這篇文章並不是說宇宙謝林良善性是唯一真實的良善觀念？
答：對。請參見「地球謝林良善性」一節以了解另一種良善觀念，以及「寬容、局部變異與自由」一節，該節承認了許多競爭性的良善觀念。

問 6：對於某些問題，我不確定宇宙謝林答案是「好」還是「壞」，而且我能想到兩邊的論點。這是否意味著答案是未定義的，或者是平手？
答：不是，那是關於主觀不確定性與客觀頻率之間區別的常見混淆。請參見「平手是不穩定的」一節。不知道一個群體對某個問題會如何回答，與有正當理由確信該群體會精確地平分秋色，這兩者是非常不同的。而且，除非群體精確平分，否則謝林答案就是「好」或「壞」，取決於哪一方獲得更多支持。因此，如果你無法判斷哪個答案是正確的，與其說「沒有答案」或「答案是平手」，不如說「我不知道」或「我還沒被任何一方說服」。

更微妙的問題

問 7：我想到一個例子，做一件「壞」事 X 可以讓做這件事的人獲益。你沒提到這一點。這是否意味著你關於 X 在宇宙謝林意義上是壞的論證是錯誤的？
答：是的，如果你真的發現了一個比我提出的「X 是壞的」論證更簡單、在許多組織尺度上更廣泛可識別的「X 是好的」論證，那麼這會影響我們對謝林收斂基礎案例的預期，並可能意味著你的答案更有可能成為謝林規範。但如果你的論證僅適用於單一尺度（即便 A+B 整體會因鼓勵 X 的規範而受損，A 仍能透過對 B 做 X 而獲益），那麼你的論證可能與在日益增大的尺度上生存與增長不太相容，在決定宇宙謝林答案時可能沒有太多份量，因為宇宙謝林答案受超大規模文明的影響不成比例。關於這一點，請參見「尺度不變性，再探」一節。

問 8：你定義偷竊為侵犯許可且具破壞性，這似乎基本上「預設了結論」——幾乎任何人都會同意這讓它變壞。這難道不意味著這個論證沒說出什麼有價值的內容嗎？
答：嗯，這裡確實有一點遞迴，因為先有一個論證，然後有一個關於那個論證的論證。那個顯示規範與其對立面在適應性上存在某些不對稱性的簡單「基礎案例」論證，需要是一個相當簡單的論證，以便本文中的遞迴元推理模式能輕易顯示它是一項宇宙謝林規範。所以是的，雖然這些基本的不對稱論證旨在至少具有非常輕微的非平凡性，但就其不需要長而複雜的推論鏈而言，它們確實是相當徹底地「預設」好的。更有趣且非平凡的部分是，關於那些非常簡單的不對稱性的遞迴元推理所產生的、具有信心提升作用的謝林參與效應。而且，這種信心提升是關於問題的謝林答案，而非直接關於問題的答案，這兩者是不同的概念。

感謝你花時間閱讀關於謝林良善性的內容！我希望你會喜歡思考它；我知道我喜歡——而且我特別想聽聽你對其他道德問題的地球和宇宙謝林答案的看法。

Schelling Goodness, and Shared Morality as a Goal

本文並不適合「略讀」

初始道德（Pro tanto morals）、「是好的」與「是壞的」

第一部分：謝林參與效應

成功的要素

問題的謝林轉換

第二部分：透過宇宙謝林群體達成謝林道德

尺度不變的適應性

一個例子：偷竊

識別 vs. 認可 vs. 遵守

答案頻率 vs. 答案本身

平手極其罕見

宇宙謝林答案是否能有信心地被知曉？

謝林參與效應，再探

這難道不只是心智投影謬誤嗎？

宇宙謝林道德何時容易識別？

尺度不變性，再探

第二個例子：帕累托正向貿易

更難的問題與注意事項

平手是不穩定的

這難道不是假設了道德實在論嗎？

這些結果難道不取決於生命的分布嗎？

那「實然-應然」鴻溝呢？

寬容、局部變異與自由

地球謝林良善性

那麼，「好」到底是什麼意思？

對人工智慧對齊的啟示

結論與歷史背景

常見問題 (FAQ)

基本誤解

更微妙的問題