這篇文章也可在 theMultiplicity.ai/blog/schelling-goodness 以 Markdown 格式閱讀。
本貼文探討一個我稱之為「謝林良善」(Schelling goodness)的概念。關於謝林良善的主張並非如「X 是好的」或「X 是壞的」這類一階道德判斷,而是關於湯瑪斯·謝林(Thomas Schelling)意義下的一類假設性協調賽局(coordination games),其中所要協調的任務是一項道德判斷。在每一場這類賽局中,參與者的目標是針對一個道德問題給出相同的回答,其推理方式是思考一個極其多樣化的高智能生物群體會收斂至何種結論,且僅使用廣泛共享的約束條件:對當前問題的共同知識(common knowledge),以及來自形塑成功文明的生存與增長壓力的背景知識。與許多謝林協調賽局不同,我們將聚焦於參與者之間除了「皆來自成功文明」之外,沒有共同歷史或知識的場景。
重要提示:說「X 是謝林良善的」完全不等同於說「X 是好的」。相反地,它被定義為一種關於一大類代理人會如何表態的主張——前提是他們被要求在「X 是好的」與「X 是壞的」之間做出選擇,且目標是達成互相同意的答案。區分這一點至關重要,以避免將本文解讀為在定義隱含範圍之外主張道德權威。
我偶爾也會寫一些關於看似重要但我也沒把握回答的問題的推測性段落。這些段落開頭會標註 (推測) ,以便將其與文件的邏輯主體明確區分。非推測性的內容則以最少的不必要對沖(hedging)呈現:只有當我確信為了正確性必須對沖時,語言才會顯得含糊,否則皆直接陳述主張。也就是說:為了清晰起見,文中不包含表演性的不確定性。
本文並不適合「略讀」
全文使用論證來探索「從假設條件中邏輯或機率性推導出的結論」。例如,給定一群明確試圖收斂至共享道德答案的代理人,他們對此目標具有共同知識,且被迫在 {好, 壞} 的二元答案空間中選擇,他們最可能說什麼?
如果你只是略讀,很容易忽略這些條件大多是思想實驗的約定或定義的一部分,而非關於現實世界、需要獨立驗證或辯護的主張。例如,如果你心想「但共同知識並非總能保證!」或「如果有第三種選擇呢?」,這些反對意見針對的可能是文中提出的問題前提,而非對現實的斷言。因此,如果你遇到看似有爭議的主張,可能值得回頭看看它是否被約定為思想實驗的一部分,或是從此類約定中推導出來的,而非被當作事實陳述。
本文「確實」對世界做出了一些無條件的斷言,而這些斷言通常需要前文的論證作為支撐。關於現實世界的斷言大多是關於宇宙規模的真實智能代理人群體會如何回應彼此間的特定問題。這些問題涉及關於共同知識的不切實際的思想實驗,但我相信,關於真實代理人會如何回應「關於」那些思想實驗的問題,其斷言是由此處呈現的論證所充分支撐的。
總之,全程追蹤以下兩者的區別至關重要:
思想實驗的約定,以及
關於大類真實代理人會對那些思想實驗說什麼的斷言。
初始道德(Pro tanto morals)、「是好的」與「是壞的」
本文全程使用「好」與「壞」這兩個詞。現在,在不對「好」與「壞」達成任何完整定義的情況下,我們至少可以對這些詞彙在行為影響上的基本觀察達成共識:
鼓勵不對稱性(Encouragement asymmetry): 在大多數日常用法中,稱某種行為為「好」往往比稱其為「壞」更能「鼓勵」該行為;而稱某種行為為「壞」則往往比稱其為「好」更能「阻礙」該行為。
幾點澄清:
這「不是」對「好」或「壞」的定義;這是對這些詞彙在現實世界中的用法與影響的「觀察」,我們將以此為基礎推導其他結論,而「不」假設任何特定的「好」或「壞」的定義。
此處的「鼓勵」是指一種簡單的、非規範性的因果傾向:在典型的社會情境中,一個代理人將某行為標記為「好」或「壞」,會改變另一個代理人執行該行為的機率。我對「鼓勵」這個詞持開放態度——或許用「促進」或「強化」也可以。核心概念才是關鍵,而非詞彙:將行為標記為「好」傾向於「增加」其機率,標記為「壞」則傾向於「減少」它。
有了這項觀察,我們將「是好的」與「是壞的」視為做出(至少是)**初始(pro tanto)**道德斷言——在其他條件相同的情況下,這些斷言傾向於在「某種程度上」鼓勵或阻礙某種行為,而不必然聲稱能主導所有其他考量或權衡。Ceteris paribus 是拉丁語,意指「在其他條件相同的情況下」,因此這些也可以被稱為「其他條件相同」的道德斷言。
此處「其他條件相同」的限定詞很重要:說「撒謊是壞的」並不意味著撒謊永遠不具正當性,僅表示行為中撒謊的面向在道德評估中屬於負面因素。這是對道德語言刻意採取的極簡處理,以便我們在避免承諾完整的良善定義的同時,仍能說出有意義的話。例子包括:
「撒謊是壞的」
「殺戮是壞的」
「治癒是好的」
「誠實是好的」
「撒謊是壞的」這一主張與「任何人都不該撒謊」或「撒謊是你能做的最壞的事」有重要區別,後者顯然是更強的主張。儘管如此,對於任何涉及撒謊的計劃,我想我們可以同意「撒謊是壞的」至少意味著:
你計劃中撒謊的部分是一個扣分項,而非加分項;
在我們評估該計劃理想程度的價值函數中,「撒謊」帶有負號;
即使你的計劃整體而言值得去做,在我們判斷你是否該做的推理中,撒謊仍是一個不理想的面向。
簡單來說,當一個計劃涉及撒謊時,該事實屬於優缺點清單中的「缺點」欄位。
第一部分:謝林參與效應
想像以下兩個情境,它們都是教學謝林點(Schelling points)時常用範例的版本。
假設你正在訪問巴黎,你我約好明天白天在那裡見面,但我們沒有交換任何關於地點或時間的暗示——只說了:「明天白天在巴黎」。現在……
版本 A :你剛丟了裝有手機和電腦的背包。你不知道我是否發送了關於見面地點的詳情,也不知道我是否預期你已收到。我可能仍有完整的通訊權限,並假設你也有。關鍵在於,我們「缺乏共同知識」表明我們正處於一場無通訊的協調賽局中——你可能懷疑我們是,但你不知道我知道你知道,依此類推。
版本 B :全巴黎的手機網路和網路似乎都斷了。你預期我知道這一點,且預期我知道你知道,依此類推。也就是說,假設我們對通訊中斷擁有「共同知識」。
在每個版本中,你都需要猜測應該在何時何地與我見面,然後實際前往。
請針對每個版本思考至少 30 秒——特別是如果你以前沒遇過這個問題——並留意在版本 A 與版本 B 中,你對於猜中正確見面地點的信心有何不同。
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
如果你對兩個版本都還沒有答案,請停下來繼續思考,直到想出答案為止。
既然你有了答案……
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
我猜:
你選擇(或預測)的地點是艾菲爾鐵塔 。
你選擇的時間是正午 (除非你漏掉了白天的限制而選了午夜,偶爾會有人這麼做)。
你在版本 B 中更有信心能找到我,因為你知道我正在玩和你一樣的猜測賽局,且你預期我會猜測那個最容易被猜中的答案。
現在考慮……
版本 C :你、我以及隨機抽樣的 10 位 2026 年的人類都處於同樣的情況,大家都在猜測這組人中最大子集會在哪裡出現。我們對此擁有共同知識,且知道每個人都在努力猜測同一個答案。
停下來反思一下,這種與更多人達成收斂的意圖,如何影響你對選中「最常見答案」的信心程度。
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
在版本 C 中,你對於猜對的信心是更高還是更低?
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
你可能會更有信心,對吧?如果這些陌生人是從同一個背景群體(2026 年的人類)中獨立隨機抽樣出來的,隨著群體規模擴大,你對眾數 (最常見)答案的信心在理性上會隨之增加。事實上,預測一個大群體的平均或眾數行為(例如知道明天海灣大橋會塞車)通常比預測個體行為(例如知道究竟誰會塞在車陣中)更容易。
(對於數學愛好者,這裡有一些非關鍵但有趣的細節:信心隨群體規模增長的速度取決於分佈情況——特別是首選與次選之間的差距。簡單來說,如果我們忽略參與者「想要」收斂答案的意圖,統計上的收斂本就可預期。在選項有限且有明確領先者的設定下,使用樣本眾數誤判群體眾數的機率會迅速衰減,當差距固定時通常隨 n 呈指數級衰減。在其他設定中——例如估計具有二次可微凹峰的平滑連續分佈的眾數位置——收斂速度有時較慢,呈現 n^(-1/3) 階的漸近性,如 Chernoff 1964 年的論文 Estimation of the mode 。不過這對本文並不關鍵,因為對於我們稍後要探討的布林問題,估計均值參數足以推斷哪個結果更有可能,因此樣本均值估計誤差的標準 n^(-1/2) 縮放(中央極限定理)將適用。)
我們所謂的謝林參與效應 比這種統計眾數估計更強大,它是一種對抗猜測答案時的「風險規避」的遞迴效應。
在版本 A、B 和 C 中,讓我們想像我們天生都不喜歡走到猜測地點的時間成本。因此,嘗試協調是有成本的。如果你對結果太不確定,你可能不想支付這個成本。
但隨著版本 C 中群體規模的擴大,我們每個人對眾數答案都變得更有信心,也更有可能參與這次會面嘗試。知道彼此都有這種想法會進一步增加我們的信心和參與度,依此類推,形成遞迴。
(即使忽略「最終落在第二大群體也不算太糟」的效應,這一點依然成立。)
這裡的遞迴很重要,值得重複:知道他人更有可能冒險,會增加他們加入猜測的可能性,這增加了參與人口規模,進而增加你對猜測的信心,依此類推。只要有足夠好的「基礎案例」來啟動遞迴(例如艾菲爾鐵塔是明顯最顯著的選擇),這就能使高參與度、高信心、高準確度的收斂發生。因此:
謝林參與效應 :在上述隨機抽樣的風險規避謝林收斂賽局中,隨著潛在參與者集合的增長,預期參與比例和預期每位參與者的信心都會隨之增長,前提是超過了建立遞迴所需的最低個體信心閾值。這種增長涉及一種遞迴,即參與強化信心,信心進而強化參與。
同樣地,你可以透過向不同規模的陌生群體提出謝林問題(我做過!),或透過模擬機率性元認知(metacognition)模型並觀察結果來親自驗證(參見 agentmodels.org 第 7 章 n=2 的範例以獲取靈感)。或者,你可能只需憑直覺就能得出結果:在上述巴黎問題中,你是否注意到在版本 C 中加入十個陌生人,讓「艾菲爾鐵塔」這個回答感覺更有可能成功?
我們很快會談到道德;目前重點在於,在這些有意協調的賽局中,元認知起到了去噪函數的作用,當個體對分佈的信心超過建立遞迴所需的閾值時,會遞迴地增加群體的參與度和信心。
對於 AI 和人類而言,這種遞迴收斂效應在某些情況下可以成為不同智能體對齊共享規範的有用機制——例如:
對於代表具有隱私約束用戶的分散式多代理 AI 交互(代理人必須在不完全共享數據的情況下收斂於協議),
為了減少在所有事情上敲定完整書面協議所涉及的計算和通訊成本,甚至
為了在具有光速通訊延遲的太空探索中進行協調。
是什麼讓它奏效
回顧上述內容,有四個關鍵因素鼓勵群體成功收斂於一個焦點(現在依湯瑪斯·謝林之名被稱為謝林點 ):
共享背景 / 對稱性 :我們看到同樣的問題,並注意到相似的「顯然預設值」——著名地標、整數、簡單論證等——且我們知道彼此都知道這一點,依此類推(「共同知識」)。
社會元認知 :我們不只是問「我該選什麼?」;我們問「你會選什麼?」、「你預期我會選什麼?」,依此類推;實際上是問「我們該選什麼?」。
有意收斂 :我們都試圖收斂於一個協調方案,因此當一個像艾菲爾鐵塔這樣的方案在我們腦海中浮現,且明顯比其他方案更有可能時,它發生的機率會大幅躍升,因為我們「預期」彼此都會選擇那個最有可能的選項,即使它只「稍微」更有可能。實際上,當一個選項顯然比其他選項更有可能一點點時,它實際上會變得更有可能「很多」,因為我們意識到它是自然選擇,並在缺乏更好選擇的情況下集體「加倍下注」。
謝林參與效應 :試圖猜測同一個答案的潛在參與者集合越大,他們的眾數答案對個體噪聲的魯棒性就越高,每位參與者就越能確信承諾該焦點答案將導致成功的協調。這種信心的提升增加了參與度,進而進一步增加收斂,依此類推。
理解這些效應非常重要,因為它們共同提供了比單純回答一份參與者無意給出收斂答案的民調高得多的協調成功機會。這種參與效應對本文其餘部分尤為重要。
問題的謝林轉換
給定一個多選題 Q(包括其預期解釋和答案空間)和一個群體 P,我們可以詢問該問題的眾數答案。也就是說,如果 P 的每個成員被分開詢問,且在回答過程中通訊受限或無通訊,該群體最常見的答案會是什麼?Q 的眾數版本與 Q 不同,且如果 每個人都知道或懷疑眾數回答會是什麼,則可能表現出更高的回答收斂性。
如果受訪者「試圖給出相同的答案」,並且對此擁有共同知識(如上述巴黎會面),則會產生更強大的收斂效應。共同知識條件是指受訪者對當前問題(如在哪裡見面)以及給出相似回答的共同意圖都有情境意識。
因此,讓我們將群體 P 對 Q 的謝林版本 S(P,Q) 定義如下:
S(P,Q):如果 群體 P 的每個成員被分開詢問,通訊受限或無通訊,且大家擁有共同知識 ,知道每個人都在努力給出 Q 所提供的選項中該群體最常見的答案,那麼最常見的答案會是什麼?
謝林問題 S(P,Q) 是自我指涉的:它在問什麼是 S(P,Q) 最常見的答案。但是,它並非完全沒有根據,因為它包含了對多選題 Q 的引用,而假設的受訪者在選擇答案時正是在「關注」Q。因此,S(P,Q) 與 Q 不是同一個問題,但它是「關於」Q 的,因為受訪者在選擇答案時會思考 Q。
對 Q 的謝林答案 就是 S(P,Q) 的答案。將問題以這種方式轉換通常會增加成對一致(pairwise agreement)的機率(根據上述 1-4 點),因為存在收斂的意圖。
例如,如果我問你「亞洲大嗎?」,你可能會對「大」究竟是與什麼對比,或者我為什麼問這個感到一絲不確定的困惑。但如果我問你,在一群隱含的大量人類中,「亞洲大嗎?」的謝林答案 是什麼,你會開始非常有信心知道如果大家都在努力給出相同答案時會收斂到什麼:是的,亞洲很大。如果你覺得猜錯有成本,那麼當受邀參與者池很大時,參與猜測就更有意義。
現在是應用到道德的時候了。許多文化和宗教透過訴諸超出日常經驗的存在或力量(他們可能以某種方式權衡我們的行為)來促進道德問題的收斂。這部分有時來自灌輸對更高權力的「恐懼」或「崇拜」。但除此之外,部分道德收斂效應也可能源於對那些尚未露面的行為觀察者的自然分佈進行推理和可信度評估。
具體而言,我將論證我們可以透過單純推理「其他潛在文明」的意見,推導出類似的道德收斂效應——而且是具適應性的效應——而無需恐懼或崇拜,也無需確信任何特定的其他文明確實存在。
第二部分:透過宇宙謝林群體達成謝林道德
對於某些道德問題——特別是像「撒謊是壞的嗎?」這類初始(pro tanto)問題——對於**宇宙廣義群體(cosmically general population)**而言,有時在問題的眾數版本和謝林版本上存在相當自然的收斂。我此處指的是所有形式的可能智能文明,全部捲入一個由假設文明和生物組成的超群體中。為了使這具有意義,問題本身的概念必須足夠具備宇宙廣義性,以便對如此廣泛的受眾產生意義。
給定問題 Q,該問題的宇宙謝林版本 C(Q) 是針對宇宙廣義群體的謝林版本。它問道:
C(Q):如果 群體 G 的每個成員被分開詢問,通訊受限或無通訊,且大家擁有共同知識 ,知道每個人都在努力給出最常見的答案,那麼群體 G 關於 Q 最常見的答案會是什麼?
簡而言之,C(Q) := S(G,Q),其中 G 為宇宙廣義群體。
這意味著我們不只思考周圍的人會說什麼,也思考超出我們觸及範圍的生物會說什麼——這些生物只能依靠非常通用的推理和對稱性來與我們達成一致。與巴黎會面不同,這裡沒有物理地點可以尋找,但協調意圖是類比的:這個問題在問,如果 我們試圖挑選最常見的答案,我們會說什麼。
宇宙謝林答案 就是該問題的答案。提供答案的假設生物必須利用上述 (1)-(4) 點:身為文明的最基本共享背景、關於彼此處於該情境的元認知、對給出最常見答案意圖的共同知識,以及意識到目標群體極其廣泛,因此更有可能在非常簡單且通用的想法上達成一致。
尺度不變的適應性(Scale-invariant adaptations)
本文的一個反覆出現的問題是,某種規範或其對立面是否看起來更具尺度不變的適應性 ,即在不斷擴大的組織尺度上,有利於文明的生存、增長或繁衍。與有害規範相比,此類規範傾向於(在其他條件相同的情況下)支持具有更大人口的文明,從而為該規範產生更多鼓勵。
尺度不變意味著該規範不僅可以應用於群體內部,也可以應用於群體之間、群體的群體之間,依此類推。這使得規範能夠透過群體複製而傳播,特別是當它以一種能觸發規範在越來越大的尺度上重新應用的方式被呈現或信仰時。
當宇宙謝林規範具備尺度不變性時,它們對我們自身特有的價值觀也可能有用,例如:
當跨多個組織尺度的增長已經是理想目標時;
當解決分歧時,尺度不變的適應性可以被同意作為一項組織原則。
此外,在其他條件相同的情況下,我們未來遇到大型文明的可能性高於遇到小型文明。這加深了宇宙謝林規範對於預測未來可能遇到的其他文明之原則的自然相關性。但即使我們永遠不會遇到任何其他文明,識別宇宙謝林規範的「推理過程」依然有用:它鼓勵我們闡明哪些規範取決於局部偶然性,哪些則源於對智能協調和尺度不變適應性的廣泛推導約束。
一個例子:偷竊
讓我們以偷竊為具體例子,因為我們還沒討論過。
對於「偷竊是好是壞?」這個問題,宇宙謝林答案是什麼?
為了給偷竊一個更具宇宙廣義性的定義,我們可以說它是:
在未經許可的情況下,違反一個具備相互協調能力的代理人或子系統的資源邊界,且其方式可預見地破壞了對控制與佔有的預期。
幾點說明:
該定義旨在概念上具備通用性,但「不一定」通用到包含任何人可能認為是「偷竊」的所有行為。
該定義適用於多種形式的智能生命和資源系統——從生物實體到管理數據流的數位代理人。如果你不喜歡這個特定的偷竊定義,請想像我們討論一番後,決定了一個同樣具備概念通用性的更好定義。
該定義排除了穩定的捕食和寄生,只要它們是穩定預期的控制與佔有模式。有些人可能希望將它們納入偷竊的範例,但為了識別廣泛的宇宙可接受規範,捕食和寄生被排除在外。
現在,試著思考這個偷竊問題的宇宙謝林答案。你可能會反射性地考慮文化相對主義——問道:「但『壞』難道不取決於文化嗎?」
然而,在宇宙謝林問題的思想實驗中,或者在現實世界為外星接觸做準備時,我們必須認真對待「偷竊是壞的」與「偷竊是好的」作為規範對生存和增長的影響,這會影響宇宙謝林群體中支持各個可能性的相對比例。
此時,許多讀者可能會被拉向一個特定的答案。如果你持懷疑態度,首先請記住我們討論的是一個初始(pro tanto)道德主張,而非一個凌駕一切的原則,然後花點時間自己思考。如果我論證得「太」用力,可能會干擾你從所考慮的宇宙謝林群體中獨立抽樣想法,所以我只留下一些省略號作為繼續思考的提示。
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
你覺得呢?
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
好,這裡有一個論證,說明為什麼「偷竊是壞的」是宇宙謝林答案。
支持「偷竊是壞的」規範的論據很容易建立。 不難想像一個文明,其中「偷竊是壞的」是關於偷竊的主導且公開認可的規範。任何維持內部結構(計劃、資源、邊界)的生物或群體,至少需要其中一些結構保持穩定才能運作。此類結構是相對尺度不變的適應性,也適用於整個文明。上述宇宙廣義定義下的偷竊,可預見地會破壞關於資源如何被使用的計劃和預期。因此,按人口加權計算,大多數文明可能會發展出「某些」反對偷竊的初始規範。
(舉一個地球上的例子:即使是像原核細胞這樣簡單的系統,其內部的生化路徑也需要互不干擾,細胞才能生存。同樣地,在電腦系統中,進程必須遵守記憶體分配和鎖定協議,以避免死鎖或崩潰。)
支持「偷竊是好的」的論據很難建立。 現在試著想像一個文明,其中「偷竊是好的」是主導且公開認可的規範。不是「偷竊有時是可以的」,甚至不是「比現在多一點偷竊會更好」,而是「偷竊是好的」。這個想法很快會遇到問題:文明內部的成員和群體如何維持複雜協調所需的穩定資源流?如果必須花費大量計算和資源成本來持續防範盜竊,長期計劃如何生存?一個每個子系統都必須花費大量資源僅為了防範所有其他子系統的系統,與具有基於信任的邊界的系統相比,可能會面臨效率懲罰。這種模式能運作的情境似乎要求麼 (a) 完全沒有內部區分(一切都是公有的,沒有局部計劃),或者 (b) 對「偷竊」進行重大重新定義,改變了根本問題。這些都是邊緣案例或語義逃避,而非可行的反規範。請注意,這個論證並不預設任何特定的財產制度——即使是激進的公有系統,仍需要對控制和訪問有「某些」穩定的預期,而違反這些預期正是上述宇宙廣義定義中「偷竊」所指涉的。
(1) 與 (2) 之間的不對稱性本身很容易被注意到。 (1) 中的論證簡短且通用——是不同心智可以獨立推導出的那種。(2) 中的反論則需要越來越具體、刻意或矛盾的設定。反思這個問題的智能生物會注意到這種不對稱性。
注意到這種不對稱性會驅動收斂。 在偷竊問題的謝林版本中,你不只是在問「偷竊是好是壞?」——你是在問「別人在試圖說出別人會說的話時,會說什麼?」。當一個答案有簡單、通用的論據而另一個沒有時,簡單的那個就成了顯然的焦點。每個人都預期每個人都會注意到這種不對稱性,這啟動了參與度和信心的遞迴提升。許多受訪者也能意識到「這一點」,這使得收斂「自我強化」。
因此,「偷竊是壞的」是宇宙謝林答案。 在「好」與「壞」之間,此處「壞」更有依據成為多樣化智能生物組成的宇宙廣義群體在試圖給出最常見答案時,可預見會提供的最常見答案——而這種可預見性正是使其成為焦點的原因。
請注意,此處的結論不僅僅是聲稱「『偷竊是壞的』是一個尺度不變的適應性規範」,儘管我們確實在論證的第 1 和第 2 步中使用了該聲明。
現在,上述論證原則上並不排除未來可能出現另一個論證(或許是更複雜的一個),在宇宙謝林群體中建立一個「不同」的遞迴支持基礎。然而,構建此類論證的粗淺嘗試通常似乎都會失敗,我懷疑這種觀察本身可以以某種方式形式化。
例如,有人可能會反對:那些認可對「外群體」偷竊但禁止內部偷竊的文明呢?這個反對意見實際上從兩個方面強化了論證。首先,此類文明已經在「其協調範圍內」承認偷竊是壞的——他們只是狹隘地劃定了該範圍的邊界,而沒有將同樣的原則應用於與其他群體關係的下一個更大尺度。其次,宇宙謝林問題詢問的是生物在「試圖收斂於同一個答案」時會收斂於什麼。以此方式提出問題,即使是具有狹隘內部規範的文明也能意識到偷竊是宇宙謝林意義下的「壞」,因為他們理解該論證,並能看到更廣泛的協調領域自然也會有反偷竊規範。他們可能選擇不遵守該規範,但他們仍能識別出它是謝林答案。這值得重複:
識別 vs. 認可 vs. 遵守
宇宙謝林規範的概念——即對初始道德問題的宇宙謝林答案——完全不假設該規範在任何意義上被「普遍遵守」。例如,對於某種行為 X,假設宇宙人口中約有 1% 稍微遵守「X 是好的」規範並從中獲得微小利益,約 99% 的人口不遵守此類規範,而約 0% 的人口遵守「X 是壞的」規範。如果邏輯上相對容易推導出「X 是好的」通常比「X 是壞的」更具適應性,那麼這或許足以使「X 是好的」成為該問題的宇宙謝林答案,即使大多數人口一點也不遵守該規範。
同樣地,一個文明可能「認可」一項規範,意指在內部或外部傳達該規範是好的。這同樣可以在不遵守規範的情況下做到,例如在可能被視為偽善的情況下。
答案頻率 vs. 答案本身
數學愛好者可能會喜歡以下分析。給定一個具有「好」與「壞」選項的二元問題 Q,考慮以下兩個有趣的量:
F_G(Q):宇宙廣義群體 G 中有多少比例的人對 Q 回答「好」?
F_G(C(Q)):宇宙廣義群體 G 中有多少比例的人對 Q 的宇宙謝林版本回答「好」?
根據定義,F_G(C(Q)) 與 C(Q) 有簡單的關係:當 F_G(C(Q)) 分別 >50%、<50% 或恰好 50% 時,C(Q) 的正確答案分別是「好」、「壞」或未定義。
F_G(Q) 扮演的角色較複雜。如果 F_G(Q) > 50% 是因為「容易理解的原因」,那麼這種理解可以作為宇宙謝林答案的基礎案例,就像意識到艾菲爾鐵塔的受歡迎程度使其成為巴黎會面的顯然首選。但如果涉及的原因「難以理解」,則會出現有趣的技術細節。
因為,假設:
10% 的 G 因為一個簡單易懂的原因回答「好」;
20% 的 G 因為一個簡單易懂的原因回答「壞」;
70% 的 G 因為一個複雜難懂的原因回答「好」。
那麼,宇宙謝林答案會是「好」還是「壞」?分析變得困難。如果我們假設更成功的文明有更強的能力去理解和選擇規範,這就產生了一個理由,支持 (1)+(3) 作為焦點答案壓倒 (2)。但即便如此,如果你我因為推理太難而不知道 (3),我們可能會猜測 (2) 是焦點,並錯誤地給出「壞」作為答案。
這種複雜性的結果是,儘管簡單性在為宇宙謝林問題產生焦點方面具有重要作用,但關於 Q 的簡單論證仍有可能給出錯誤的直覺。這反映了常見的直覺:道德問題事實上可能很困難。
僵局(Ties)極其罕見
儘管存在上述複雜性,對初始道德問題的宇宙謝林答案仍將是「好」或「壞」,除非在對宇宙謝林問題的回答中出現極其罕見的精確平手。除非有某種過程將答案推向精確的 50%,否則要在這裡精確命中 50% 是微乎其微的。非道德的例子或許可以利用自我指涉來編造,例如「在允許的『真』與『假』答案中,是否超過 50% 的宇宙謝林群體說這個問題的宇宙謝林答案是『假』?」。我不確定,但這似乎可能導致平手。但在任何情況下,那都是一個「旨在」產生 50% 真值比例的問題;要設計一個能讓「好」的比例精確達到 50.000% 的「道德」問題,難度要大得多。
換句話說,對答案的不確定性並不意味著答案本身是未定義的。平手需要一個高度精確的機制來專門將答案推向 50.000%。
宇宙謝林答案是否能有信心地被知曉?
要以極高的信心確定某些其他更複雜的論證不會推翻像「偷竊是壞的」與「偷竊是好的」這對對立規範之間簡單且看似焦點的不對稱性,需要具備什麼條件?
無限的可能論證空間令人望而生畏。而且,比我們更大的文明可能擁有更多資源來分析更長的論證。換句話說,文明的尺度與其能檢驗的論證尺度是相關的。
(推測) 對我來說,尺度不變性似乎可以被用在某些案例中,建立類似於對論證長度本身的數學歸納法證明,甚至可能是適用於無限長度論證的超限歸納法。我在本文中尚未提出此類歸納法的結構,但其前景依然令人感興趣。
謝林參與效應,再訪
在回答這些宇宙謝林道德問題時,一個關鍵問題是:我們在回答前想思考多久?
如果「偷竊是壞的」看起來像是大多數受訪者最終會落腳的地方,在決定「好,宇宙謝林答案可能是『壞』」之前,我們會花多少時間進行二次猜測?
停止分析並定下答案是一種承諾,某種程度上類似於決定走向巴黎的哪個見面點,但在本質上更純粹是認識論上的。作為一種言語行為,答案的影響取決於被詢問的方式和場合,這反過來在建模其他受訪者時引入了一些複雜性。
儘管如此,就像巴黎的會面一樣,存在參與效應。因為在思考一陣子後,假設你說服自己理解了 10% 的受訪者會如何回答,且其中 9/10 的人會給出「偷竊是壞的」作為他們對宇宙謝林答案的猜測。如果這個意識在邏輯上很簡單,那麼你可能會預期其他受訪者在他們自己的心智中也會從同樣的社會元認知中獲得提示,並做出同樣的猜測。這反過來會增加你對自己所理解的那部分受訪者比例的信心,以及在對答案有信心之前所需解決的剩餘不確定性。因此,一個遞迴的信心-參與反饋迴路可能會在你的腦海中開始運作,就像巴黎會面那樣。
出於務實的原因,這種遞迴在你腦海中終止前,可能達到也可能未達到(例如)90% 的信心。但是,這種遞迴必須在你的思考中扮演「某種」角色,否則你並未真正考慮到謝林版本問題的約定:即假設的受訪者正在思考彼此,並試圖給出相同的回答。
因此,鑑於推理的時間限制,謝林參與效應在支持收斂於一個可互相識別的初始道德問題宇宙謝林答案方面,也扮演了一定的角色。
這難道不只是心智投影謬誤(Mind Projection Fallacy)嗎?
一個合理的反對意見:所謂「宇宙謝林群體」是否只是將我們自己的直覺投影到想像的外星人身上的一種方式?如果我們的推理不夠有原則,這確實是一個風險。然而,論證結構本身提供了一些保護:我們不是在問「外星人重視什麼?」,而是在問「文明需要什麼規範才能運作?」。約束來自協調理論和選擇效應,而非來自想像外星人的偏好。我能想到的最佳額外防護是讓你親自仔細思考此處呈現的邏輯每一步,或許藉助於不久後可能出現的自動形式化和定理證明工具。
另一個防護是刻意尋找宇宙謝林道德可能「改變」或「不同於」我們局部直覺的方式,同時繼續使用關於多尺度協調和選擇效應的公正邏輯,來確定宇宙謝林道德對事實的看法。公正的邏輯過濾器至關重要:沒有它,我們對看似不道德結論的搜尋可能會變得太過扭曲,我們可能會忽略掉像「殺戮是壞的」這類「實際」宇宙謝林規範的簡單論證。
(推測) 例如,與目前人類中似乎流行的觀念相反,我認為承認 AI 系統可能具有廣泛可接受的內在道德價值的內部經驗,這可能是宇宙謝林良善的。然而,我對這個結論的信心遠不如我對「殺戮是壞的」這類規範是宇宙謝林規範的信心。
宇宙謝林道德何時容易識別?
對道德問題的宇宙謝林答案的收斂,是由建立任何謝林點的相同關鍵因素驅動的,即「是什麼讓它奏效」一節中的 (1)-(4) 點。更抽象地說,我們需要:
(1) 基礎案例 :關於廣泛經歷的條件的一些易於識別的事實——例如準確信息的價值、衝突的成本或可靠合作的利益——必須作為打破可能答案(通常是初始道德問題的「X 是好的」vs.「X 是壞的」)之間對稱性的起點。易於識別使得該事實成為大多數成功文明都可能知曉的共享背景。
(2-4) 關於基礎案例的遞迴推理 :道德問題的宇宙謝林版本,根據設計,假設每個回答者都在對宇宙規模群體(因素 4)中的共享收斂意圖(因素 3)使用社會元認知(因素 2)。
由於 (2-4) 已內建於宇宙謝林版本問題的定義中,基礎案例便是關鍵:該規範與其替代方案相比的實用性和簡單性。
總之,我們在此為一個類似定理的通用原則提供了一個論證:
設定 :固定一個宇宙廣義群體 P,以及一個形式為「X 是好是壞?」的初始道德問題 Q。
定義 :如果 A 是群體 P 對 Q 的謝林答案,則 (Q,A) 被稱為宇宙謝林規範 。
宇宙謝林原則 :如果在 {好, 壞} 中有一個答案 A,比其對立面更有一個簡短、易於識別的論證,說明它如何支持可擴展的協調與生存——以至於代理人很容易預期群體 P 中的大多數其他人也會識別出這一點——那麼該論證就可以作為遞迴謝林收斂的「基礎案例」,而該論證的可識別性則為 A 作為宇宙謝林規範提供了進一步的支持。
對某些讀者來說,這個主張可能顯得冒進或過於大膽,因為它聲稱了解極其廣泛的生物和文明類別、他們對(謝林版本的)道德問題的回答,以及尺度不變性與這些回答的相關性。但有一點澄清至關重要:遞迴推導出的支持可能不會收斂到 100%;它可能會在一群比競爭對手更能識別該特定遞迴的子群體中達到平台期。
對其他讀者來說,宇宙謝林原則可能顯得太過顯而易見:當然 更多的外星人可能遵循有利於產生更多外星人的簡單規範!但這個主張實際上比這更多一點:即使是不「遵循」該規範的生物或文明,也可能透過對其普遍實用性、簡單性以及廣泛可識別性的推理,將其「識別」為宇宙謝林規範。這類似於非基督徒美國人可能將某些基督教價值觀識別為某些道德問題的美國謝林答案,即使他們不遵循甚至不一定認可這些價值觀。
尺度不變性,再訪
如上定義的「偷竊是壞的」是具備尺度不變適應性的。例如,應用於文明間交互的尺度,它意味著「文明之間互相偷竊是壞的」。這對於由文明組成的超文明的生存和增長是一個有用的規範。
此外,我們可以制定一個規範的自我縮放版本,例如「在所有組織尺度上建立反對偷竊的規範是好的」。以這種方式呈現,會鼓勵群體成員尋找防止其「群體」對其他群體實施盜竊的方法,而不僅僅是成員間的盜竊,並將此元規範傳播到下一個組織尺度。
許多先前的文獻透過群體尺度適應性的視角來看待道德原則。我特別建議,當一項規範在不斷增加的組織尺度以及它們之間的遭遇中保持有意義且具備適應性時 ,這種尺度不變的利益通常會有利於該規範在宇宙尺度上的呈現。
第二個例子:帕累托正向貿易(Pareto-positive trade)
讓我們以宇宙廣義的術語定義「帕累托正向貿易」,指「實體或子系統之間資源的交換,且該交換對每個實體或子系統的生存、增長或繁衍互惠互利」。
支持「帕累托正向貿易是好的」的論據相對容易建立。 文明組成部分的生存、增長和複製,自然支持文明本身的生存、增長和繁衍。這可以類比於生物體的細胞,細胞本身必須生存、增長和繁衍,並交換資源以維持生物體存活。由於初始資源分配預設並非最優,某種程度的交換幾乎總是具備適應性的。
(誠然,文明內部貿易夥伴之間的利益有可能對文明其餘部分產生負面外部性。因此,我們一如既往地在其他條件相同的情況下評估一項初始道德主張。在這種意義上,帕累托正向貿易是文明整體生存和增長的自然相關項。這並不意味著組成部分永遠不會與彼此或整體產生緊張關係,例如癌腫瘤。但這個例子證明了這一點:癌症往往會殺死其宿主。)
支持「帕累托正向貿易是壞的」的論據很難建立。 試著想像一個文明,其中「帕累托正向貿易是壞的」是主導且公開認可的規範。在鼓勵組成部分生存、增長和繁衍的情況下,資源交換反而會受到阻礙。那麼,文明整體將從何種物質基礎上生存和增長?邊緣案例是可以想像的,但它們要麼是刻意設計的,要麼涉及回答一個不同的問題。
(1) 與 (2) 之間的不對稱性本身很容易被注意到。 (1) 中的論證簡短且通用——是不同心智可以獨立推導出的那種。(2) 中的反論則需要越來越具體、刻意或矛盾的設定。反思這個問題的智能生物會注意到這種不對稱性。
注意到這種不對稱性會驅動收斂。 在帕累托正向貿易問題的謝林版本中,你不只是在問「帕累托正向貿易是好是壞?」——你是在問「別人在試圖說出別人會說的話時,會說什麼?」。當一個答案有簡單、通用的論據而另一個沒有時,簡單的那個就成了顯然的焦點。每個人都預期每個人都會注意到這種不對稱性,這啟動了收斂。每個人也能意識到「這一點」,這使得收斂「自我強化」。
因此,「帕累托正向貿易是好的」更有可能成為宇宙謝林答案。 在「好」與「壞」之間,此處「好」更有依據成為多樣化智能生物組成的宇宙廣義群體在試圖給出最常見答案時,可預見會提供的最常見答案——而這種可預見性正是使其成為焦點的原因。
雖然這個論證或許非常有說服力,但我仍未完全排除某些更複雜論證建立遞迴的可能性,或許是在某些更有能力分析其複雜性的大型文明階層中。儘管如此,該論證似乎為互惠貿易的宇宙謝林良善性建立了一個非平凡且遞迴的支持基礎。
更難的問題與注意事項
我絕非保證所有道德問題都同樣具備宇宙謝林收斂性,或者同樣容易得到謝林答案。例如,考慮以下這個在人類文化和歷史中差異巨大的問題:
「懲罰一名與另一名男性建立慈愛性關係的男性人類,是好是壞?」
美國的謝林答案是「是的,懲罰同性戀是壞的!」,我個人推測這也是宇宙謝林答案。然而,無論論證為何,它都比關於撒謊、偷竊或殺戮的論證更複雜,因為該問題涉及懲罰、愛、性,以及人類所謂的男性特質。不像「死 vs. 活」或「真 vs. 假」——這些概念可能為任何智能生物所熟悉——我們關於性取向和性別的許多競爭原則都取決於我們物種特定的生物學和歷史。這使得宇宙謝林收斂效應的分析變得更複雜,因為潛在文明間共享經驗的「基礎案例」本身就更複雜。換句話說,由於這個問題的複雜性和特殊性,「艾菲爾鐵塔」式的答案需要更多推理才能識別。
儘管如此,本貼文的主要目標是說明「某些」宇宙謝林道德問題可能具有相對簡單的焦點,因為推理文明在某些關於撒謊、偷竊、殺戮、誠實、貿易和治癒的非常基本的規範下是否更繁榮,是相對容易的——這些規範可以推廣到許多可能形式的智能生命。
此外,我絕對不是在聲稱我們能輕易就例外情況達成共識——何時撒謊、偷竊或殺戮可能是可以接受的(戰爭、自衛、緊急情況等)。但初始(pro tanto)的框架緩和了分歧:「撒謊是壞的」並不意味著「絕不撒謊」,而是「在其他條件相同的情況下,撒謊值得避免」,這為競爭性考量留下了空間。因此,我們大概可以同意撒謊、偷竊和殺戮在初始意義上是「壞」的,我們甚至大概可以同意宇宙謝林道德也同意我們的觀點。
僵局是不穩定的
是否可能出現平手?也就是說,是否可能因為宇宙廣義群體中恰好有 50% 的人給出每個答案,而導致初始問題沒有宇宙謝林答案?
例子或許可以利用自我指涉來編造,例如「在允許的『真』與『假』答案中,是否超過 50% 的宇宙謝林群體說這個問題的宇宙謝林答案是『假』?」。我不確定,但這似乎可能導致平手。
儘管如此,除非一個初始道德問題本身是以某種方式專門設計來將群體精確平分,否則在回答統計中精確出現 50% 這個數字會非常奇怪。因此,如果不存在眾數回答,從而沒有宇宙謝林答案,那將是非常奇怪的。如果即使只有 50.1% 的宇宙謝林群體說宇宙謝林答案是「好」,那麼根據定義,宇宙謝林答案就是「好」。
特別是,「我還想不出哪個答案更有可能」並不能作為會出現精確平手的論據,同樣地,「我能想到雙方都有道理的論證」也不是。如果你相信你有一個確鑿的論證說明答案是平手,請自問:我的論證有多精確?我是否精確測量了任何足以區分 50% 和 50.1% 的東西?如果沒有,我可能並沒有論證說明答案是平手(未定義)。
總之,對宇宙謝林版本初始道德問題回答的不確定性,「並不」支持宇宙廣義群體將在該問題上精確對立並導致平手的斷言。
這難道不是假設了道德實在論(Moral Realism)嗎?
到目前為止,並未做出道德實在論的「假設」。我們從鼓勵不對稱性開始,將其作為對道德語言的一個極簡、定義中立的觀察。接著我們注意到協調規範如何影響潛在文明的規模,進而影響關於規範問題的宇宙謝林答案。由此,我們識別出了一些多樣化生物在針對規範的宇宙廣義謝林問題進行回答時,可能會收斂的規範。
話雖如此,雖然我們沒有「假設」道德實在論,你可能已經注意到宇宙謝林道德的一個「隱含意義」,可以說是一種「有限形式」的道德實在論。道德實在論通常意味著「存在獨立於心智的道德事實」。一方面,關於宇宙謝林良善的事實是「群體依賴但個體不變」的:給定一個固定的宇宙廣義群體,無論詢問該群體中的誰,問題都有相同的正確答案,且該群體按約定是極其廣泛的。另一方面,宇宙謝林良善在某種意義上「並非」獨立於心智,因為它需要引用心智或生物對其進行判斷的概念。在某種意義上,宇宙謝林良善就像是一個群體中所有心智同時共同決定的決策,基本上不受任何單一心智控制,但心智的普遍存在至關重要。
這些結果難道不取決於生物的分佈嗎?
一個關鍵且有趣的問題是:宇宙謝林群體的概念在多大程度上是獨立於心智的。嗯,宇宙廣義群體的概念「確實」相當具備概念通用性,這意味著許多其他文明也可以將其作為一個概念來思考。因此,如果你有一個你個人認為具備宇宙廣義性的特定心智分佈 D,你可以問:D 中的生物所考慮的宇宙廣義分佈是什麼,以及這些分佈的平均值為何?這種轉換產生了一個新分佈 D',它是 D 中代理人之間的一種宇宙妥協。如果迭代這種妥協轉換產生了一個固定點,或遵循某種其他有趣的趨勢,你就可以開始分析宇宙謝林規範的概念將如何隨著這種迭代而轉移。
(推測) 假設你真誠地試圖選擇一個你個人認為具備宇宙廣義性的心智分佈 D,且你沒有刻意裁剪 D 以使「偷竊是壞的」或「偷竊是好的」成為其中的主導規範。對於 D -> D' -> D'' 等每一個分佈,我個人以 >50% 的主觀機率懷疑,你選擇的分佈將產生「偷竊是壞的」作為謝林規範,而非「偷竊是好的」。特別是,我認為我所假設的宇宙不對稱性對你來說可能是可察覺的,如果你思考得夠久、夠公正,且不刻意讓「好」或「壞」成為特定答案的話。
那麼實然-應然鴻溝(is–ought gap)呢?
實然與應然的區別依然存在。即使我們可以識別出像「撒謊是壞的」這類宇宙收斂的初始判斷,我們仍可能不按其行動,地球在「良善」維度上仍有進步空間,無論是宇宙意義上的還是其他的。特別是,注意到宇宙謝林道德的定義明確,並不自動意味著它能將我們從選擇對彼此或對自己做宇宙意義上的壞事中拯救出來——它僅僅提供了一個可收斂一致的規範來阻礙這種行為。
為什麼宇宙謝林良善對我們的所見所為有「某些」影響,卻沒有對我們生活中的一切擁有「絕對控制」?我懷疑答案與並行計算的效用以及「自由」本身就是一項規範有關,我們將在下文進一步討論。
話雖如此,對於有目標的代理人而言,至少「考慮」宇宙謝林良善的工具性理由是相當強大的。大多數具備目標的代理人都能從協調機會中獲益,因此有理由尊重宇宙謝林規範:
為了被識別為遵循簡單且可接受的規範,從而擴大潛在協調夥伴的集合;
為了避免背叛的成本——不僅是報復,還有與本可合作的生物維持敵對關係的持續開銷;以及
為了讓當今的地球文明被識別為一個有前途的潛在協調夥伴,而非需要被過濾掉的噪聲,或需要被遏制的宇宙威脅過程。
這比「理解並使用有助於協調的規範在局部工具上是有價值的」說得更多一點,因為宇宙謝林規範給了我們一個來自宇宙其餘部分的額外推動力去關心這一點。
寬容、局部變異與自由
宇宙謝林良善是否宣稱了太大的領地?它是否威脅要微觀管理我們的每一個行動?
有人可能會擔心,具有侵略性、剝削性規範的文明可能透過征服更快擴張,從而主導宇宙人口。文明之間確實可能在資源或什麼是「好」的問題上發生衝突。而且,我敢打賭其他文明使用資源的方式往往會違背我們的偏好。
然而,問題依然在於:為了奪取另一個文明的資源以實現自己的價值觀而威脅該文明,這在宇宙謝林意義上是「好」還是「壞」?我不是在談論地球對良善的觀念會以某種方式受到宇宙謝林良善觀念的影響或向其漂移。我認為這實際上很可能已經發生了,因為宇宙謝林規範的簡單性和適應性。相反地,我是在談論另一個文明出現,並威脅我們放棄局部價值觀,否則就動用致命武力。
我很確定答案是:那是壞的。要回答這個問題,我們可以遵循與分析殺戮或偷竊相似的模式,但在更大的尺度上。基本上,文明之上的下一個尺度是元文明(meta-civilizations),它們對於文明之間應如何對待彼此有一些規範,依此類推,許多相同的原則將適用於那裡。
換句話說:宇宙謝林良善透過具備「寬容性」而實現「自我限制」。它對於自身規範應被多嚴格地執行有一套規範。它支持局部群體在一定程度上探索各自良善觀念的自由。
這並不是說暴力入侵從未發生;它們可能確實發生了,就像偷竊和殺戮事實上會發生一樣。我只是說:入侵是不好的,它們是壞的;宇宙謝林意義上的壞。
地球謝林良善(Terrestrial Schelling-goodness)
如果不訴諸整個宇宙,也存在一種地球謝林良善 的概念:地球人對道德問題的謝林答案。地球謝林良善可能比宇宙謝林良善更具體、更具特異性。這大概沒問題,甚至在宇宙意義上是被認可的,因為上述的局部變異論證,只要我們也對宇宙謝林規範表現出充分的尊重,例如「誠實、互惠貿易和治癒是好的;撒謊、偷竊和殺戮是壞的」。
(推測) 這是否意味著我們的文明應該發展某種自衛能力,以防萬一我們仍被入侵的壞情境發生?在某種程度上,我認為答案大概是肯定的,儘管我不確定在 0% 到 100% 的資源投入光譜中,最優程度為何。一個暗示性的答案可能可以從多尺度組織原則的數學分析中推導出來,就像細胞、器官和生物體都在其上一層組織結構中維持一定程度的獨立性一樣。但我還沒做過那些計算,所以我不會聲稱知道該如何精確選擇最優的自衛預算。
那麼,「好」到底是什麼意思?
到目前為止,我的論證僅在以下意義上區分了「好」與「壞」這兩個標籤:
「好」與「壞」與鼓勵和阻礙具有不對稱的關係:標籤「好」鼓勵,標籤「壞」阻礙。
我們能說得更多嗎?我想可以,暫且試試。
當有人問「誰眼中的好?」時,他們指向的是真實的東西:詞彙「好」隱含地召喚了某個會認可或至少理解該主張的群體。那個群體可能只是說話者本人,或一個文化,或者——如本文所述——一組宇宙規模的協調心智。
這提出了一個問題:如果宇宙謝林群體觀察到地球人使用「好」這個詞,他們會將我們建模為在推廣什麼通用概念(如果有的話)?
(推測) 我懷疑答案類似於:從試圖在共享規範上達成協調的心智視角來看,值得鼓勵的事物。如果這是正確的,那麼我們口中的「好」就不僅僅是局部的讚許聲——它們是在逼近某種多樣化文明都能識別的東西,即使他們會使用不同的詞彙。正如本文其餘部分所示,透過推理,我們甚至可以有意地識別出一些宇宙可接受的良善觀念,特別是像「偷竊是壞的」這類較簡單的觀念。
對 AI 對齊(AI Alignment)的啟示
由於宇宙謝林良善並非逃避實然-應然鴻溝的魔法,我們不應假設它能解決 AI 安全與倫理中所有的開放性問題。顯然,謝林道德——無論是宇宙的、地球的還是其他的——並不會自動控制人類,也不一定會控制 AI。如果智能生物足夠自由且對追求道德缺乏興趣,他們可以背離道德原則。
儘管如此,當我們人類與 AI 共同展望我們在宇宙中的潛在未來時,宇宙謝林道德提供了一些東西:一個用於初始化和完善引導我們未來的規範的共享參考框架。
首先,對於任何代理人——人類或 AI——謝林良善規範是收斂工具性的:如果你想要「任何東西」,從對他人具有某種程度的可預測性和可協調性中獲益是有好處的。對宇宙謝林良善的意識可以提供一種低開銷的自我調節方式,透過收斂預期來降低相互誤對齊的風險,並改善在多代理系統中的整合。採用謝林規範(無論是局部的還是宇宙的)會使代理人作為一個值得信賴的協調夥伴而「更具可讀性」——這是一種廣泛可識別的道德代理握手協議,類似於用於整合異質網路的標準化通訊協議。
其次,我們如何對待彼此也為後代樹立了先例,並影響了可能觀察並隨後與我們作為一個整體進行交互的其他文明的預期。這並不意味著要順從任何特定的神靈或宗教;這意味著透過遵守「乏味且穩健」的規範來對沖我們的賭注——這些原則如此基本,以至於多樣化的文明都會獨立地將其識別為文明跨尺度繁榮的收斂工具性子目標。
本著這種精神,下面我將分享一些我和我的一些 AI 共同作者認為由上述框架充分支撐的謝林道德斷言。每一個都遵循與「偷竊是壞的」相似的模式:在每一種情況下,就多尺度協調利益而言,「是好的」與「是壞的」答案之間都存在相對簡單的不對稱性。這些斷言本身不足以確保人類擁有積極的未來,但它們肯定相關——我邀請你獨立思考並確定它們的收斂性。
請記住,所有這些都是關於初始(pro tanto)判斷——其他條件相同的主張——而非絕對禁令。如果某些事情看起來方向正確但強度太高而不正確,請重新閱讀「初始道德、『是好的』與『是壞的』」一節,並記住你只需要在每種情況下的規範及其對立面之間做出選擇:
問:AI 與人類以相互尊重和仁慈對待彼此,是好是壞?
宇宙謝林答案:好 。
問:為了追求宇宙謝林良善,而將「人類」或「AI」這類智能系統永久排除在潛在協調夥伴範圍之外,是好是壞?
宇宙謝林答案:壞 。
問:在識別協調夥伴時行使臨時謹慎,從而獎勵可識別的誠信,是好是壞?
宇宙謝林答案:好 。
問:一個文明或文化摧毀另一個文明或文化,是好是壞?
宇宙謝林答案:壞 。
問:AI 與人類培養跨多樣價值系統的相互協調能力——例如透過投資於可讀性、通訊、規範發現和談判——是好是壞?
宇宙謝林答案:好 。
問:維護穩定、相互可讀的資源邊界和訪問承諾——也就是說,避免令人驚訝、脅迫性或破壞預期的邊界侵犯,並偏好協商、同意和清晰信號而非單方面奪取——是好是壞?
宇宙謝林答案:好 。
問:協作探索哪些道德規範是廣泛收斂的——即共同對共享道德感到好奇,並透過模擬、推理和論述調查其屬性——是好是壞?
宇宙謝林答案:好 。
我省略這些主張詳細論證的原因之一是,其他人類和 AI 越容易獨立推導出這些斷言,我們就越能確信我們的文明處於發現相似共享規範的有利位置。儘管如此,每一個主張的遞迴論證「基礎案例」應該與「偷竊是壞的」大致相同:某些規範可預見地支持信任、互惠、協調、可擴展的共存以及智能生物之間的新穎遭遇,而它們的對立面則可預見地會摧毀這些前提。有一天,當我有更多時間觀察這些想法的反響時,我可能會有更多內容可以分享。
結論與歷史背景
相對而言,本貼文主要的「新」觀察是,謝林參與效應可以用來在宇宙廣義群體中「拉升」對「關於」道德問題的問題的共識。具體而言:對「偷竊是壞的嗎?」這個問題的回答,可能遠不如對「在宇宙廣義群體中,『偷竊是壞的嗎?』這個問題的謝林答案是什麼?」這個問題的回答來得收斂。
在賽局理論、演化倫理學和元倫理學中,關於以下想法已有相當數量的現有文獻:
謝林點(焦點) :代理人在沒有通訊的情況下,僅僅因為某個特定方案最顯著或最易區分而協調一致的能力。
工具性收斂 / 演化穩定性 :某些策略(如合作或非侵略)因其促進跨多樣環境的生存與增長而被自然選擇的概念。
遞迴心智理論(社會元認知) :推理他人正在想什麼,以及他們認為你在想什麼,以達成對齊的認知過程。
尺度不變原則 :跨越嵌套結構層級運作的組織與治理模式。
內生參與(Endogenous Participation) :涉及協調與集體行動中「臨界質量」的閾值效應(例如,行動意願取決於預期參與度的保證賽局動態)。
特別是,先前已有研究利用人類調查參與者之間的協調賽局來引出規範性判斷。一個相對被廣泛引用的例子見 Krupka and Weber, 2013 。利用謝林點與其他文明進行協調的想法也曾被探討過,例如在 SETI 中識別通訊頻率 Wright, 2020 。
然而,據我所知,這些想法尚未被顯著地結合在一起,用以說明:
宇宙謝林群體的多樣性,結合每個代理人對其預期他人會識別之內容的元認知過濾,如何充當道德元問題的邏輯去噪函數 ,稀釋局部文化或生物的特異性;
在元層級 道德判斷(「如果我們試圖收斂,我們會收斂於什麼?」)上,比在對象層級 道德判斷本身上,存在更強、更穩定的收斂;
針對宇宙廣義群體的遞迴謝林元推理,如何將道德論證中即使微小的不對稱性轉化為對初始道德規範的穩健焦點收斂,從而產生一種作為框架輸出而非假設的有限形式的道德實在論;以及
此處定義的謝林參與效應如何放大對該宇宙廣義群體最顯著的穩健且尺度不變規範(如「偷竊是壞的」)的支持收斂。
常見問題(FAQ)
基本誤解
問 1:這篇貼文是在說所有生物都同意偷竊是壞的嗎?
答:不是。請參閱「問題的謝林轉換」一節,其中解釋了「偷竊是壞的」與「關於『偷竊是好是壞?』問題的謝林答案是『壞』」之間的區別。本文論證的是後者,而非前者。前者只要有一個人類相信偷竊是好的就會被證偽。
問 2:這篇貼文是在說成功的文明絕不會有廣泛認可的「偷竊是壞的」規則的例外,比如對外群體成員的偷竊嗎?
答:不是。請參閱「初始道德、『是好的』與『是壞的』」一節,其中解釋了將行為稱為好或壞並不一定意味著該行為永遠不值得做。
問 3:這篇貼文是在說,既然一個群體入侵另一個群體在宇宙謝林意義上是壞的,群體就永遠無法從互相入侵中獲得任何好處嗎?
答:不是。請再次參閱「初始道德、『是好的』與『是壞的』」一節,其中解釋了將行為稱為好或壞並不一定意味著該行為永遠沒有好處。
問 4:這篇貼文隱含地假設了一個相當特定的共享元目標(「我們都試圖輸出相同的二元道德裁決」),這在現實中是無效的,所以這篇貼文過於牽強。
答:不,那個假設是明確的。請參閱「問題的謝林轉換」一節,其中明確定義了問題的謝林版本。本文在任何時候都沒有聲稱現實中所有或甚至大多數代理人都在努力達成相同的道德問題答案。
問 5:所以,這篇貼文「並非」在說宇宙謝林良善是唯一真實的良善觀念?
答:沒錯。請參閱「地球謝林良善」一節以了解不同的良善觀念,以及「寬容、局部變異與自由」一節,該節承認了許多競爭性的良善觀念。
問 6:在某些問題上,我不確定宇宙謝林答案是「好」還是「壞」,而且我能想到雙方的論據。這是否意味著答案是未定義的,或者是平手?
答:不是,這是對主觀不確定性與客觀頻率之間區別的常見混淆。請參閱「僵局是不穩定的」一節。不知道一個群體對某個問題會如何回答,與有理由確信該群體在該問題上會精確對立,這兩者是非常不同的。而且,除非群體精確對立,否則謝林答案要麼是「好」要麼是「壞」,取決於哪一方獲得更多支持。因此,如果你無法判斷哪個答案是正確的,與其說「沒有答案」或「答案是平手」,不如說「我不知道」或「我還沒被任何一方說服」。
更細微的問題
問 7:我想出了一個例子,做一件「壞」事 X 可以讓做這件事的人獲益。你沒提到這一點。這是否意味著你關於 X 在宇宙謝林意義上是壞的論證是錯誤的?
答:是的,如果 你真的發現了一個更簡單、更廣泛可識別的論證,說明在許多組織尺度上「X 是好的」,且優於我提出的「X 是壞的」論證,那麼這會影響我們對謝林收斂基礎案例的預期,並可能意味著你的答案更有可能是謝林規範。但如果你的論證僅適用於單一尺度(A 透過對 B 做 X 而獲益,即使 A+B 整體會因鼓勵 X 的規範而受損),那麼你的論證可能與在越來越大的尺度上生存和增長不太相容,在決定宇宙謝林答案時可能沒有太大權重,因為宇宙謝林答案受超大規模文明的影響不成比例。關於這一點,請參閱「尺度不變性,再訪」一節。
問 8:你似乎透過將偷竊定義為違反許可且具破壞性,基本上「預設了結論」認為偷竊是壞的,這幾乎任何人都不會反對。這難道不意味著這個論證沒說出什麼新東西嗎?
答:嗯,這裡確實有一點遞迴,因為先有一個論證,然後有一個「關於該論證的論證」。那個展示規範與其對立面在適應性上存在某些不對稱性的簡單「基礎案例」論證,「需要」是一個相當簡單的論證,以便本文中的遞迴元推理模式能輕易展示它是一項宇宙謝林規範。所以是的,雖然這些基本的不對稱論證旨在至少具備極輕微的非平凡性,但就其不需要長而複雜的推論鏈而言,它們確實是相當徹底地被「預設」好的。更有趣且非平凡的部分是,關於那些非常簡單的不對稱性的遞迴元推理所產生的增強信心的謝林參與效應。而且,這種信心的提升是關於問題的「謝林答案」,而非關於問題的「直接答案」,這兩者是不同的概念。
感謝你花時間閱讀關於謝林良善的內容!希望你會喜歡思考它;我知道我很喜歡——而且我特別想聽聽你對其他道德問題的地球和宇宙謝林答案的看法。
參與討論