On The Independence Axiom
Lesswrong
The article draws a parallel between Euclid's fifth postulate and the independence axiom in decision theory, arguing that dropping this axiom can lead to more consistent and useful models of rationality.
Lesswrong
The article draws a parallel between Euclid's fifth postulate and the independence axiom in decision theory, arguing that dropping this axiom can lead to more consistent and useful models of rationality.
AI 生成摘要
本文將歐幾里得第五公設與決策理論中的獨立性公理進行類比,主張放棄這一公理不僅不會導致不理性,反而能產生更一致且實用的理性行為模型。
1820 年,匈牙利數學家法卡斯·鮑耶(Farkas Bolyai)給他的兒子雅諾什(János)一封絕望的信,雅諾什當時正沉迷於困擾他父親數十年的同一個問題:
「你絕不能嘗試這種處理平行線的方法。我對這條路瞭如指掌。我曾穿過這無底的黑夜,它熄滅了我生命中所有的光芒與喜悅。我懇求你,遠離關於平行線的科學……以我為戒。」
這個問題就是歐幾里得的第五公設,即平行公設。它指出(在其等價表述之一中):通過已知直線外的一點,有且僅有一條直線與該已知直線平行。兩千多年來,數學家們一直覺得這個公設有些不對勁。其他四個公設都簡短、乾脆、顯而易見:任何兩點之間可以畫一條直線、直線可以無限延伸、可以以任何中心和半徑畫圓、所有直角都相等。相比之下,第五公設冗長、複雜,感覺更像是一個應該能從其他公設推導出來的定理,而不是一個獨立存在的基礎假設。一代又一代的數學家試圖從其餘四個公設中推導出它,但都失敗了。
法卡斯·鮑耶哀求他的兒子遠離它。
雅諾什無視了父親的建議,但並非以法卡斯所恐懼的方式。他沒有試圖證明這個公設,而是提出了一個顛覆整個事業的問題:如果這個公設根本是錯誤的會怎樣?如果通過一點可以畫出多於一條平行線會怎樣?他沒有推導出矛盾(這本可以通過反證法構成對第五公設的證明),而是發現了一個完全自洽的幾何學,其內部邏輯與歐幾里得幾何一樣連貫,只是描述了不同類型的空間。羅巴切夫斯基大約在同一時間獨立得出了相同的結論。平行公設並非完全錯誤,但它不是必要的。它是多個選擇中的一個,而其他的選擇引向的幾何學不僅在邏輯上有效,而且在一個世紀後被證明比歐幾里得的平直空間更能描述真實的物理宇宙。
大約兩個世紀後,人們在討論決策理論和期望效用公理。標準的論點大致如下:理性的主體必須極大化期望效用。馮·諾曼-摩根斯坦定理證明了這一點。如果你的行為違反了這些公理,你就會被「荷蘭式下注」(Dutch-booked),變成「金錢泵」(money pump),被任何注意到這種不一致性的人剝削。你不想成為金錢泵,對吧?那麼你必須極大化期望效用。證訖。
在馮·諾曼-摩根斯坦框架中有四個公理:完備性(completeness)、遞移性(transitivity)、連續性(continuity)和獨立性(independence)。其中三個相對沒有爭議。第四個,即獨立性,承擔了巨大的結構性工作;正是這個公理強制偏好在機率上呈線性,這在數學上等同於要求偏好必須能表示為效用函數的期望值。如果沒有獨立性,你仍然擁有一個定義良好的偏好泛函(根據 ,在給定其他公理的情況下),你仍然可以對結果進行排序,仍然可以做出一致的選擇,但你不再受限於必須極大化特定的期望效用。獨立性就是決策理論的第五公設。
我相信,就像歐幾里得的第五公設一樣,解決之道不在於更努力地去證明它的合理性,而在於追問:當我們捨棄它時會發生什麼?產生的決策理論是什麼樣的?它是否自洽?它是否有用?它是否能更好地描述實際的理性行為?
我將論證,這三個問題的答案都是肯定的。捨棄獨立性並不會導致不理性或易受剝削。現存的幾種著名的期望效用理論替代方案,正是因為放寬了獨立性才得以存在,而且它們這樣做是有原因的。特別是遍歷性經濟學(Ergodicity economics),提供了一種有原則且簡約的替代方案,它從主體所處的隨機過程動態中推導出適當的評估函數,而不是假設一個權宜的效用函數並取其期望值。而 LessWrong 社群自身對無更新決策理論(updateless decision theory)的研究,也正從一個完全不同的方向匯聚到同一個結論:最具反射穩定性(reflectively stable)的主體,可能恰恰是那些違反獨立性公理的主體。
在進入主要論點之前,我們需要澄清一個術語上的混淆,這種混淆在最瑣碎的層面上悄悄腐蝕了關於決策理論的推理。「效用」(utility)這個詞指的是兩個完全不同的數學對象,它們共用一個名字實在令人遺憾。這在決策理論中是眾所周知的,如果你知道我在說什麼,歡迎跳過這一節。
第一個對象是我們可以稱之為偏好效用(preference utility),或 f1。這是經濟學家在消費者理論中用來表示你在確定性情況下對商品組合的主觀評價的函數。如果你在(2 個橘子,3 個蘋果)和(3 個橘子,2 個蘋果)之間無差異,那麼 f1 的構造使得 f1(2,3) = f1(3,2)。f1 的關鍵性質是它是序數的(ordinal):唯一重要的是它引發的排名,而不是它分配的數值。如果 f1 給組合 A 分配 7,給組合 B 分配 3,這僅僅意味著你偏好 A 勝過 B。你可以用 f1 的任何單調遞增變換(平方、取指數、加一百萬)來替換它,它所代表的偏好完全相同。數字本身除了排序之外不攜帶任何信息。
第二個對象是馮·諾曼-摩根斯坦效用(von Neumann-Morgenstern utility),或 f2。這是出現在期望效用理論中期望算子內部的函數。它的構造不是基於你對確定組合的偏好,而是基於你對博彩(lotteries)、即結果機率分佈的偏好。vNM 定理說:如果你對博彩的偏好滿足四個公理,那麼存在一個函數 f2,使得你偏好博彩 A 勝過博彩 B 當且僅當 E[f2(A)] > E[f2(B)]。與 f1 不同,f2 是基數的(cardinal):它的定義精確到仿射變換(你可以乘以一個正數常數並加上任何常數,但僅此而已)。它的曲率攜帶著真實的信息,特別是關於你對風險的態度。凹函數 f2 意味著你是風險規避的;凸函數則意味著你是風險追求的。這種曲率根本不是 f1 的特徵,因為 f1 的定義精確到任意單調變換,這可以使曲率變成你想要的任何樣子。
現在,f2 必須在一個方面與 f1 達成一致:對確定(退化)結果的排名。如果你確定偏好組合 A 勝過組合 B,那麼 f2(A) > f2(B),就像 f1(A) > f1(B) 一樣。但 f2 包含的信息嚴格多於 f1。它不僅告訴你你偏好 A 勝過 B,還告訴你相對於其他對子,你偏好 A 勝過 B 多少,其精確意義在於這些差異的比率決定了你會接受什麼樣的賭博。f1 對賭博隻字未提。
這種區別在理論文獻中得到了處理(參見例如 ,該書明確區分了兩者;或 ,該書提供了特別謹慎的處理)。但在實踐中、在教科書中、在隨意的討論中,這兩者經常被混為一談。人們說「效用函數」而不具體說明指的是哪一個,這種模糊性造成了實質性的損害。
以下是與我們的目的相關的具體混淆。當有人說「理性主體極大化期望效用」時,對於隨意的聽眾來說,這聽起來像是「理性主體計算所有可能結果中主觀價值的機率加權平均值」。換句話說,這聽起來像是主體採用 f1(代表每個結果感覺有多好或他們有多看重它的函數),並根據機率對可能的世界進行平均。這意味著主體字面上將賭博的價值視為他們對每個可能結果價值的加權總和。
但這只有在 f1 和 f2 是同一個函數時才成立,而它們通常不是。它們僅在主體的風險態度恰好與其主觀價值函數的曲率完美匹配的特殊情況下重合,也就是說,僅當主體將每個可能的世界視為獨立有價值,並在不考慮賭博整體結構的情況下對其求和時。沒有理由期望這一點,而且經驗上它並不成立。
為什麼這對接下來的內容很重要?因為在處理對期望效用理論(EUT)的嚴肅論證之前,我想先處理「論點 0」——即 EUT 是好的,因為它對可能世界的主觀效用進行了平均,因為這個論點是無效的。
讓我們為獨立性公理的論點建立一個最強形式(steelman)。最好的論點並非來自直覺(「無關的替代方案當然不應該有影響!」),而在我看來,是來自 ,其邏輯如下。
考慮一個隨時間分階段展開決策的主體。在第一階段,某些不確定性被消除(例如,擲硬幣)。根據結果,主體進入第二階段,在那裡他們必須在選項之間做出選擇。在任何不確定性消除之前,主體可以形成一個計劃:「如果硬幣正面朝上,我將執行 X;如果反面朝上,我將執行 Y。」Hammond 表明,如果你接受序列決策的兩個屬性,那麼你在邏輯上被迫滿足獨立性公理。
第一個屬性是動態一致性(dynamic consistency):無論你在不確定性消除之前制定了什麼計劃,一旦你到達決策節點,你實際上都會貫徹執行。你的事前計劃和事後選擇是一致的。
第二個屬性是後果論(consequentialism,在決策理論意義上,而非倫理學意義上):當你到達一個決策節點時,你的選擇僅取決於從該節點開始仍然可能的結果。
如果你接受這兩個屬性並違反了獨立性,你就會被金錢泵。具體運作如下:假設你對博彩 A 和 B 的偏好取決於共同組成部分 C 是什麼(正如獨立性公理所說的不應該那樣)。在不確定性消除之前,你整體評估複合博彩,並偏好涉及 B 的計劃(因為與 C 分支結合,B 產生了更好的整體分佈)。但隨後硬幣正面朝上,C 分支現在已不在考慮範圍內,你發現自己要在孤立的 A 和 B 之間做出選擇。後果論說你應該根據仍然可能的結果進行評估。而在孤立情況下,你偏好 A。所以你從你的計劃(B)轉向你當前的偏好(A)。你是動態不一致的。
一個了解你偏好的聰明對手現在可以利用這一點。他們向你提供一系列交易:在擲硬幣之前支付一小筆錢從計劃 A 切換到計劃 B(因為事前你在情境中偏好 B),然後在硬幣正面朝上後,支付一小筆錢從 B 切換到 A(因為事後你在孤立情況下偏好 A)。你支付了兩次,最後回到了起點。
上述論證是有效的。但請非常仔細地注意其邏輯結構。Hammond 證明了:
動態一致性 + 後果論 → 獨立性
這意味著獨立性是由動態一致性和後果論的結合推導出的。這並不意味著獨立性是避免金錢泵的唯一方法。動態一致性本身才是防止剝削的關鍵(如果你總是貫徹你的計劃,就沒有人能通過讓你中途切換來抽乾你的錢)。Hammond 的結果顯示動態一致性加上後果論隱含了獨立性,但這留下了一個關鍵的可能性:如果你在放棄後果論的同時保持動態一致性會怎樣?
在這種情況下,你可以違反獨立性而仍然對金錢泵免疫。金錢泵依賴於一個特定的事件序列:首先,你形成一個計劃;然後,在過程中,你偏離了它,因為你在中間節點的局部評估(在後果論下,忽略了未發生的分支)與你制定計劃時的全局評估不同。如果你根本不偏離,如果你無論中間節點的局部偏好可能暗示什麼都堅持你的計劃,金錢泵就沒有槓桿可撬。對手在中途向你提供交易,你說「不,我承諾了一個計劃,我正在執行它」,金錢泵就失效了。
這是決策理論中一個發展完善的立場,它(至少)有兩種形式。
Edward McClennen 在他 1990 年的著作 中發展了果斷選擇(resolute choice)理論。這個想法很直接:主體在任何不確定性消除之前評估整個決策樹,選擇在完整軌跡上全局最優的計劃,承諾執行它,然後逐步執行而不必在中間節點重新評估。
代價是放棄後果論。在某些中間節點,果斷選擇者可能正在執行一項如果僅考慮從該節點開始仍然可能的結果時看起來並非最優的行動。他們選擇它,是因為它是全局最優計劃的一部分,而全局最優計劃是在整個決策樹上評估的,包括那些在此時點已經被消除的分支。
這「不理性」嗎?我不這麼認為。這與任何人在履行一項雖然在局部變得代價高昂、但在做出承諾時是全局最優的承諾時所做的事情是一樣的。
還有,它走向了。^() 老練選擇者(sophisticated chooser)接受他們在未來節點的偏好將與他們當前的全局評估不同,他們不是承諾推翻那些未來的偏好,而是預測並圍繞它們進行規劃。他們進行逆向歸納:從最後一個決策節點開始,弄清楚在那裡他們實際上會選擇什麼(給定他們在該節點的局部偏好),然後退回一個節點,在知道自己稍後會做什麼的情況下做出最優選擇,依此類推回到第一個節點。
老練選擇者也對金錢泵免疫,因為他們從不制定一個稍後會偏離的計劃。相反,他們制定的計劃已經考慮到了他們未來的偏離。代價與果斷選擇不同:老練選擇者不是儘管有局部誘惑仍堅持全局最優計劃,而是安於一個從事前角度看可能被優化(dominated)、但至少是自洽的計劃,因為他們實際上會貫徹執行。
老練選擇不如果斷選擇優雅,對我們的目的來說也沒那麼有趣,但它值得一提,因為它證明了同樣的結構性觀點:免疫金錢泵不需要獨立性。它只需要某種形式的序列連貫性(承諾或自我預測),而獨立性只是實現這一點的一種方式,而且確實是最具限制性的一種。
我密切關注 ,並認為它非常酷。遺憾的是,目前存在很多混淆,而且它沒有用決策理論的術語來表述,但這正是我現在要做的事情。
我主張,一個在整個軌跡上極大化其財富時間平均增長率的主體,正在進行 McClennen 所描述的果斷選擇。他們將整個計劃、整個投注序列、完整的財富過程視為一個統一的對象來評估。他們問:「給定這個隨機過程的動態,什麼策略能極大化我的長期增長率?」然後他們執行該策略。
從這個程序中產生的「效用函數」(通過遍歷映射,找到使財富過程遍歷化的變換,從而使時間平均值和系綜平均值重合)取決於過程的動態。對於乘法動態,你會得到對數效用(凱利準則)。對於加法動態,你會得到線性效用。對於更奇特的動態,你會得到遍歷映射產生的任何變換。這意味著有效的效用函數是情境依賴的(context-dependent):當隨機環境改變時,它也會改變。而效用函數的情境依賴性正是獨立性公理所禁止的,因為獨立性說你對子賭博的偏好不應取決於包裝中的其他內容。
因此,遍歷性經濟學(EE)主體違反了獨立性。但他們容易被剝削嗎?不。原因完全對應於果斷選擇框架。EE 主體致力於軌跡層面的優化:極大化時間平均增長。他們不會在中間節點通過詢問「既然不確定性的這一分支已經消除,我的局部偏好說什麼?」來重新評估。他們繼續執行軌跡層面的策略,因為它是從對整個過程的全局評估中推導出來的。金錢泵沒有槓桿,因為主體的事前計劃和事後行為之間沒有差距。他們計劃進行凱利投注(或遍歷映射規定的任何方式),並且他們正在進行凱利投注,無論任何給定時刻的局部分支結構是什麼樣子。
遍歷性經濟學與果斷選擇之間的這種聯繫以前從未被明確表述過。但我認為,這是理解為什麼 EE 可以違反獨立性而不失理性的最清晰方式。
現在,你可能接受也可能不接受整個 EE 計劃,但至少,我認為「主體應該關注賭博的動態,且具體的『效用函數』應取決於賭博」這一結論是無可爭辯地有效的。
獨立性是 vNM 框架的弱點,這一事實反映在整個廣義決策理論領域的結構中,其中大多數替代框架都是專門通過放寬或替換獨立性公理來構建的:
秩依效用(Rank-dependent utility,Quiggin, 1982)用「共單調獨立性」(僅對以相同順序對結果進行排名的博彩保持獨立性)取代了獨立性。結果是一個包含機率權重函數的偏好泛函,它在對效用函數進行積分之前扭曲了累積分佈。
累積展望理論(Cumulative prospect theory,Tversky and Kahneman, 1992)將機率權重與參考依賴和損失規避結合起來。它是為了預測風險下選擇的經驗模式而開發的,它在多個方面違反了獨立性。
二次效用(Quadratic utility,Chew, Epstein, and Segal)允許偏好泛函是機率的雙線性形式,這意味著它在機率測度上是二次的而非線性的。這捕捉到了類似於對博彩變異數(variance)的敏感性,而不僅僅是其平均值。
中間性偏好(Betweenness preferences,Dekel, 1986; Chew, 1989)將獨立性弱化為:如果你在兩個博彩之間無差異,那麼它們的任何混合也同樣好。這嚴格弱於完全獨立性,並產生由隱式泛函方程而非顯式積分定義的偏好泛函。
這種匯聚並非巧合。當多個獨立的研究計劃,由不同的人出於不同的動機在幾十年間開發,都得出相同的結構性舉動(放寬獨立性)時,這表明被放寬的約束在客觀上太強了。
是證明人們系統性違反獨立性公理的最古老且最著名的演示。其簡化形式的設置如下。
在情境一中,你在賭博 A(確定獲得一百萬歐元)和賭博 B(89% 機率獲得一百萬,10% 機率獲得五百萬,1% 機率什麼都沒有)之間做出選擇。大多數人選擇 A。
在情境二中,你在賭博 C(11% 機率獲得一百萬,89% 機率什麼都沒有)和賭博 D(10% 機率獲得五百萬,90% 機率什麼都沒有)之間做出選擇。大多數人選擇 D。
但是從情境一到情境二的轉變恰恰是一個共同後果替換:你從每對選項中剔除了相同的 89% 組成部分。獨立性說這不應該改變你的偏好,所以如果你選擇 A 而非 B,你就應該選擇 C 而非 D。人們的做法恰恰相反,這被視為不理性的證據,一個揭示人類風險認知存在系統性偏差的「悖論」。
我想論證這根本不是悖論。這是理性的行為,只有當你堅持獨立於博彩的每個其他分支來評估每個分支時,它看起來才像是悖論,而這正是獨立性公理所要求的,也正是整體推理者不應該做的。
考慮為什麼人們在情境一中選擇 A。一百萬的確定性與 99% 機率獲得至少一百萬、1% 機率什麼都沒有,在性質上是不同的。那 1% 的落空在情境中顯得非常巨大:你正在放棄確定的百萬,去換取一個可能讓你一無所有的賭博。確定的結果提供了一個底線、一個保證的軌跡,評估該賭博需要考慮整個軌跡發生的情況,包括你在明知本可以擁有確定的百萬卻一無所有的那個分支。
現在考慮情境二。兩個選項都有很高的機率一無所有。沒有確定性可以放棄,沒有底線可以犧牲。情境發生了根本性的變化:你已經處於一個很可能一無所有的世界中,問題只是在於選擇稍微高一點的機率獲得中等報酬,還是稍微低一點的機率獲得大得多的報酬。在這種情境下,追求更高的期望值是明智的。
從 A-勝過-B 到 D-勝過-C 的轉變,是對博彩整體風險結構發生變化的一種理性反應。「共同組成部分」(被剔除的 89%)在心理上或策略上並非惰性的:在情境一中,它提供了確定性;在情境二中,它什麼也沒提供。剔除它改變了評估其餘選項的情境,而一個整體推理者——一個評估其總風險暴露而非將賭博分解為獨立分支的人——應該對這種變化做出反應。
這正是我們在第 3 節引言中的例子所提出的觀點。如果共同組成部分 C 是一個巨大的安全網,你可以負擔得起在剩餘分支上承擔更多風險。如果 C 微不足道,你應該更加保守。你對 A 和 B 的偏好應該取決於包裝中的其他內容,因為你是一個面對總分佈的主體,而不是一群各自孤立評估一個分支的獨立子主體。
這裡重要的區別在於描述性主張和規範性主張之間。描述性主張(人們在阿萊模式中違反獨立性)自 1953 年以來就為人所知,且沒有爭議。通常有爭議的是這種行為的規範性地位。經濟學和許多理性社群的標準處理方式是:人們違反了公理,這是一種偏差,理想情況下應該予以糾正。我所捍衛的立場則相反:人們違反公理是因為公理太強了,他們的行為反映了對賭博結構的理性整體評估,而「糾正」(強迫符合獨立性的偏好)會使他們成為更糟糕的決策者,而不是更好的。
涉及一個相關但不同的現象:模糊規避(ambiguity aversion)。經典設置:一個甕中裝有 30 顆紅球和 60 顆黑球或黃球,比例未知。你可以賭抽中球的顏色。大多數人偏好賭紅色(已知機率為 1/3)勝過賭黑色(未知機率,可能是從 0 到 2/3 的任何值),即使你對黑色的最佳估計機率也是 1/3,期望值是相同的。這通常被視為另一種「不理性」的偏差:期望機率是相同的,為什麼模糊性會有影響?
遍歷性經濟學提供了一個自然且我認為相當優雅的解釋,它分為兩個層次。
第一層是直接的詹森不等式(Jensen's inequality)論證。 在乘法動態下,重複賭博的時間平均增長率是機率的凹函數。對於一個投注財富比例為 f 的簡單乘法賭注,增長率大約是 g(p) = p·log(1+f) + (1-p)·log(1-f),這對 p 是凹的。
現在考慮艾爾斯伯格甕。黑球的數量可能是 0, 1, 2, ..., 60。如果你最大程度地不確定並對這些可能性進行均勻平均,期望比例是 30/60 = 1/2,這與已知機率的情況相匹配。系綜平均推理者看不出區別:兩種情況下 E[p] = 1/2,所以賭博的期望值是相同的。
但 g 對 p 的凹性意味著詹森不等式適用:
E[g(p)] < g(E[p])
所有可能甕組成的平均時間平均增長率,嚴格小於機率已知為 1/2 時的時間平均增長率。每個不同的甕組成(0 顆黑球、1 顆黑球、2 顆黑球等等)都定義了一個具有不同時間平均增長率的不同乘法過程。你可以計算所有這 61 個增長率並取平均值,而該平均值將嚴格低於對應於已知 1/2 機率的單個增長率,因為你正在對一個凹函數取平均。這個差距在數學上是不可避免的,而且對於系綜平均來說是完全隱形的。
第二層是關於策略最優性。 即使撇開詹森不等式的觀點,乘法動態下的主體還有另一個理由偏好已知機率:策略校準。最優策略(凱利比例,或更廣泛地說遍歷映射規定的任何策略)取決於機率。當機率已知時,你可以精確調整投注大小並實現最優的時間平均增長率。當機率模糊時,你無法做到。
凱利準則是唯一最優的:任何偏離正確凱利比例的行為,無論你是投注太激進還是太保守,都會嚴格降低時間平均增長率。如果黑色的真實機率是 1/6 而你按 1/3 投注,你就是過度投注,你的增長率會受損。如果真實機率是 1/2 而你按 1/3 投注,你就是投注不足,你的增長率同樣會受損,雖然沒那麼劇烈但仍可測量。無論真實機率是多少,只要它與你的點估計不同,你的軌跡層面表現就嚴格差於你在已知機率下所能達到的水平。
因此,偏好已知機率的主體實際上是在說:「我希望能夠針對我所處的實際隨機過程優化我的策略,而我只有在知道該過程的參數時才能做到這一點。」
在過去的十五年裡,LessWrong 社群多次討論過獨立性公理及相關問題,其景觀頗具啟發性。碎片大多都在那裡:正確的問題被提出過,正確的擔憂被表達過,而且在一個非凡的評論中,正確的結論幾乎被逐字逐句地陳述了出來。但這些碎片從未被組合成一個統一的論點。
據我所知是 LessWrong 上最早對捨棄獨立性進行的嚴肅處理,它有很多正確之處。Armstrong 正確地將獨立性識別為最具爭議的 vNM 公理,並探索了當你捨棄它時會剩下什麼樣的決策理論。這是很有價值的基礎工作,而且 Armstrong 在 LessWrong 的共識(在很大程度上現在仍然是)認為違反任何 vNM 公理本身就是不理性的時候,能認真對待這個問題,這是值得稱讚的。
然而,Armstrong 得出的一個結論我認為是錯誤的。他的核心結果是,當一個主體面臨許多博彩,且這些博彩相互獨立且變異數有限時,即使沒有獨立性公理,主體的聚合行為也會收斂到期望效用極大化。他寫道:「因此,我們考慮的博彩越多,我們就越應該像只有它們的平均值重要那樣來對待它們。所以如果我們不是風險愛好者,並且預期一生中會遇到許多變異數有限的博彩,我們就應該遵循期望效用。」
這個結果在其假設範圍內是正確的,但這些假設恰恰排除了放棄獨立性最重要的情況。Armstrong 的收斂論證依賴於兩點:博彩之間相互獨立,且它們是以加法方式聚合的(因此大數法則以其標準的加法形式適用於它們的總和)。在這些條件下,是的,聚合結果的變異數相對於平均值會縮小,平均值佔主導地位,這等同於期望效用極大化。
但對於一個財富以乘法方式複利的序列決策主體來說,聚合不是加法的。乘法過程的相關大數法則涉及幾何平均數,而非算術平均數。而一組乘法賭博的幾何平均數是由時間平均增長率(增長因子的期望對數)決定的,而非期望值。收斂是向時間平均值收斂,而非系綜平均值。同樣的推理線索可以應用於任何非加法(因此不僅僅是乘法)的賭博。
2022 年 12 月,Scott Garrabrant ,我認為這是 LessWrong 上關於這個問題寫過的最重要的內容之一。我想引用其核心內容,然後解釋為什麼它對我的論點很重要。
Garrabrant 寫道:
我的看法是,期望效用極大化的概念是一個錯誤。[...] 據我所知,每一個支持效用的論點都假設(或隱含)每當你做出觀察時,你就不再關心那些觀察結果不同的可能世界。[...] 馮·諾曼沒有注意到這個錯誤,因為他正忙於發明整個領域。我們發現「無更新性」(updatelessness)的那一刻,就是我們應該意識到所有效用理論都是錯誤的那一刻。我想我們沒能注意到這一點。
這個論點拆解開來是這樣的:vNM 框架以及 Garrabrant 所知的所有效用公理化,都隱含地假設了更新(updating):當你觀察到某些事情(例如,硬幣正面朝上)時,你根據該觀察進行條件化,從那時起你只關心與之連貫的世界。硬幣反面朝上的世界從你的審議中被丟棄了。這是應用於偏好而非僅僅是信念的貝氏更新,它深深植根於框架之中,以至於通常是隱形的。
但 LessWrong/MIRI 的決策理論研究計劃通過對無更新決策理論(UDT)及其後續工作的研究發現,更新並非理性的要求。一個無更新的主體在做出觀察時不會縮小其關心的範圍。
現在,這就是我詳細介紹 Garrabrant 評論的原因所在。
Garrabrant 識別為效用理論中隱藏假設的更新步驟,在形式上與獨立性公理所編碼的「分支對分支評估」是同一回事。當你對「硬幣正面朝上」進行更新時,你在給定此觀察的條件下評估剩餘選項,忽略反面分支。獨立性說這種條件評估應該是相同的,無論反面分支上是什麼,這恰恰是因為你在更新後應該丟棄反面分支。相比之下,一個無更新的主體將整個策略(涵蓋正面和反面)作為一個單一對象來評估,而正面分支行動的價值取決於反面分支行動是什麼,因為兩者都是同一個全局優化策略的一部分。
這在結構上與 EE 的批評是平行的:時間平均推理者將整個軌跡(所有分支、完整的複利結構)作為一個統一對象來評估,而不是將其分解為獨立分支並在更新哪個分支實現後評估每一個。用 Garrabrant 的術語來說,EE 主體對於其財富過程的時間展開是「無更新」的。
兩條完全獨立的思想路線,一條來自物理學和隨機過程數學,另一條來自理性主義社群內部對決策理論的哲學和邏輯分析,匯聚到了同一個結構性結論:獨立性公理編碼了一種並非理性所必需的分支對分支、更新後的評估,而最具反射連貫性的主體是那些進行整體評估而非分支對分支評估的主體。
涵蓋了很多領域,但與我們討論相關的是第 5 節,標題為「獨立性公理沒那麼糟」。
Academian 對獨立性的辯護建立在他所謂的「情境強度」(Contextual Strength, CS)對 vNM 效用的解釋之上。這個想法是,vNM 偏好應該被理解為在給定結果情境下的「強偏好」。當 vNM 形式體系說你在兩個選項之間無差異時(在父母給孩子買車的例子中 S = D),這並不意味著你完全沒有偏好。它意味著你沒有足夠強的偏好,以至於你會為了滿足它而犧牲當前情境中重要的結果上的機率權重。在這種解釋下,獨立性公理要求 S = D 隱含 S = F = D(其中 F 是硬幣隨機混合),這僅僅意味著你不會為了得到公平的硬幣隨機化而犧牲任何在情境中重要的東西。你仍然可以在某種較弱的意義上偏好硬幣隨機化;你只是不能偏好到足以與真正重要的事情進行權衡。
我想承認這是一個精心構思的辯護,而且 Academian 對其大多數局限性都表現得非常誠實。但 CS 辯護有一個 Academian 沒有處理的關鍵局限:它僅適用於微小的、在情境中可忽略的獨立性違反。父母與車的例子涉及對公平性的邊緣偏好,正如 Academian 所論證的,在包含重大結果的情境中,這種偏好可能弱到不足以證明機率犧牲的合理性。沒問題。但本文所關注的場景中出現的獨立性違反根本不是邊緣性的。
再次考慮第 3 節中的賭博例子。你在賭博 A 和 B 之間做出選擇,共同組成部分 C 要麼是一個巨大的安全網(一千萬歐元),要麼是一個微不足道的金額(五歐元)。你對 A 和 B 的偏好會根據 C 是什麼而反轉:有了巨大的安全網,你選擇風險選項;沒有它,你選擇安全選項。這不是一種在更大考量出現時就會消失的微弱偏好,而是一種由你總風險暴露的結構性特徵驅動的、強大的、大幅度的風險策略轉變。CS 解釋無法容納這一點,因為 CS 的核心觀點就是獨立性違反在情境中是可忽略的,而在對 EE 和現實世界序列決策至關重要的案例中,它們絕非如此。
是 LessWrong 上對期望效用極大化最嚴謹且論證最周密的辯護,它最直接地聲稱了標題所說的內容:你必須極大化期望效用。如果本文的論點是正確的,那麼 Fallenstein 的文章就是分歧最尖銳的地方。
Fallenstein 的設置是這樣的:你有一個「精靈」,一個完美的貝氏 AI,它必須代表你從可能的行動中做出選擇。精靈理解所有可能的「巨大查找表」(指定在每一種可以想像的情況下該做什麼的完整計劃)的集合,並選擇最能滿足你偏好的那一個。偏好定義在「結果」上,結果是包含且僅包含與你的終極價值相關的世界信息的數據結構。精靈評估這些結果上的機率分佈。
在這個設置中,Fallenstein 通過與期望證據守恆類比來論證獨立性。他寫道:「獨立性公理等同於說,如果你正在評估一個可能的行動方案,而一個實驗結果會讓它看起來比現在更有吸引力,而另一個實驗結果至少會讓它看起來不比現在差,那麼你現在就應該覺得它比你現在認為的更有吸引力。」然後他處理了父母/車/硬幣的反例,論證如果你在意隨機化機制,這應該已經編碼在結果中,而不是對博彩的偏好中。
這是一個強有力的論證,而且在它的設置內是正確的。如果你接受「永恆精靈」(timeless-genie)的框架,即一個完美的貝氏主體同時審視所有可能的歷史,並從上帝視角在完整計劃中做出選擇,那麼獨立性幾乎是平凡地正確。精靈面對的是對機率分佈的一次性、靜態決策。沒有時間序列,沒有複利,沒有精靈可能重新評估的中間節點。精靈只是挑選最好的計劃,而最好的計劃就是其結果機率分佈排名最高的那個。在這種設置下,詢問「共同組成部分」是否應該影響評估,就像詢問電子表格中一個無關的列是否應該影響你挑選哪一行一樣:顯然不應該,因為你是一次性評估整行的。
但這個論點的力量完全取決於你是否接受永恆精靈框架作為理性決策的正確理想化。而這正是遍歷性經濟學和無更新研究計劃共同質疑的地方。
精靈存在於時間之外。它從上方俯瞰整個可能歷史的空間,分配機率並計算加權和。這是作為決策程序的系綜平均視角。這是一個完全自洽的理想化,是決策理論可能的「幾何學」之一。但它不是唯一的一個。一個嵌入在時間過程中的主體,面臨著具有複利後果的序列決策,無法跳出時間同時評估所有歷史,他生活在不同的幾何學中。對於這個主體來說,過程的時間結構、決策的順序、結果複利的方式、財富動態的路徑依賴性,才是決策問題的核心特徵。
Fallenstein 的論證表明,如果你接受永恆精靈的設置,你就會得到期望效用極大化,而不是你必須接受永恆精靈的設置。EE 提出的問題——一個面臨序列複利決策的時間嵌入主體是否應該整體地評估軌跡而非將其分解為獨立分支——完全落在 Fallenstein 的框架之外。它沒有被討論,因為它無法在該框架內被討論,就像關於空間曲率的問題無法在歐幾里得幾何中被討論一樣。你甚至需要不同的幾何學才能提出這些問題。
我認為我們只需要徹底放棄 EUT。它在描述人類方面很糟糕,在描述 AI 方面很糟糕,在描述潛在的超級智能方面也很糟糕。
支持這一結論的論點有三個支柱,我想確保這三者都是清晰可見的:
理論上。獨立性公理是避免荷蘭式下注剝削的充分條件,但非必要條件。
經驗上。阿萊悖論、艾爾斯伯格悖論以及估計出的風險規避參數在不同情境下的普遍不穩定性,並非人類認知中應通過教育或去偏差來糾正的漏洞(bugs),而是特徵(features),這正是你對那些整體評估總風險暴露而非分支對分支評估的主體所期望看到的。
獨立研究計劃的匯聚。遍歷性經濟學和無更新決策理論計劃,獨立地從完全不同的起點出發,匯聚到了同一個結構性洞察:獨立性公理所編碼的分支對分支、更新後的評估只是面對不確定性的一種可能的理性方式,而且還有其他方式。
理性主義社群在期望效用極大化上投入了巨大的智力成本。它被編織進了這個社群關於決策理論、AI 對齊以及主體理性意義的思考基礎中。Eliezer 的《序列》(Sequences)將期望效用極大化視為近乎公理。VNM 定理被常規性地引用為對理性主體樣貌的約束。大量與對齊相關的推理(關於可修正性、關於價值學習、關於超級智能主體會擁有什麼樣的目標函數)都隱含地假設了足夠理性的主體是期望效用極大化者。因此,從 EUT 轉向並承認獨立性公理的問題,需要更大的勇氣。
雅諾什·鮑耶曾寫信給他的父親:「我從虛無中創造了一個奇異的新宇宙。」
在決策理論中,我們也不應害怕這樣做。