我一直在為下一個鋪磚定理(tiling theorem)整理思路(議程報告在此 ;第一篇論文 ;第二篇論文 ;近期項目更新 )。關於如何改進至今的工作,我有很多想法,而試圖將其縮小到一個可實現的下一步目標一直很困難。然而,我的腦海中不斷浮現出幾位尚未被「無更新決策理論」(Updateless Decision Theory, UDT)說服的特定朋友。
我並不是要爭辯 UDT 是完美的決策理論;參見例如這裡 和這裡 。然而,我堅信那些看不出 UDT 吸引力的人遺漏了一些東西。本文的計劃不只是單純為 UDT 辯護,但性質很接近:我將非常仔細地給出支持 UDT 的論點,藉此反對天真的更新型理論(CDT 和 EDT),同時為某些形式的更新性保留空間。
這裡的想法主要受到《決策是為了使糟糕的結果不一致》 (Decisions are for making bad outcomes inconsistent)的啟發;我認為那裡的討論蘊含了一個強大論點的種子。
我研究這些想法的動力源於 AI 安全,但這篇特定文章中的所有論點都將純粹從「熱愛知識」的角度出發。
我們可以從幾種不同的方式來思考決策理論作為一個學術領域的目標。我將強調其中三種:
建議立場(Advice Stance): 決策理論是對「好建議」的研究,脫離任何特定的主題——僅僅是關於哪種建議最好的純理論。這是一套關於什麼建議應該 具有說服力的理論,而不是什麼建議事實上 具有說服力。主體被想像成面臨某種選擇(決策問題 ),而建議提供者告訴他們如何行動。能為最廣泛的決策問題提供最佳建議的決策理論家就「贏了」(他們的觀點會被其他決策理論家採納)。在某些方面,這將決策理論視為一種人類活動;試圖構建一個理想的建議提供者。
設計立場(Design Stance): 決策理論是關於設計能做出良好選擇的「決策程序」。這些決策程序在各種決策問題中對決,同樣地,能為最廣泛的決策問題提供最佳建議的程序獲勝。設計立場與對人工智能的思考相關;如果我們能完全控制一個智能體的設計,那麼建造什麼樣的東西才是最好的?
自然主義立場(Naturalist Stance): 決策理論是為了回應觀察到的一種經驗現象而建立的理論,我們稱之為「代理性」(agency)(以及其他術語如「智能」、「聰明」等)。它是描述性的而非規範性的,儘管你可以說它是對規範性現象的描述 (也就是說,描述「應該性」、目標、目的、意圖)。評判一個決策理論的標準應該是它在多大程度上增加了我們對決策行為的理解。在某種程度上,這會變成心理學,但學術決策理論在比這更高的抽象層次上運作,研究的是類似「可能心智的空間」而非特定的心智。
這三者非常粗略地 對應於 Cole Wyeth 的行動理論、政策理論和智能體理論 。^([1] )
顯然,決策理論「遊戲規則」的一個重要部分涉及檢視一個決策問題,檢查它被某種決策理論處理的方式,並比較這些分析的質量(通常是與個人關於如何正確推理該決策問題的直覺進行比較)。我的目標是澄清這個想法,並得出一些重要的啟示。
我將通過更詳細地討論這些立場來展開。我認為每一種立場都有其貢獻,但我主張「設計立場」提供了一個比「建議立場」更合適的「決策問題」定義。
建議
要將貝氏決策理論理解為一種建議理論,我們需要定義一個主觀狀態 (代表我們試圖提供建議的智能體的視角)。對此有幾種形式化方法,不同的決策理論家偏好不同的方法。三個例子:
一個樣本空間 $\Omega$,帶有一個 $\sigma$-代數 $\mathcal{F}$,以及滿足柯氏公理(Kolmogorov axioms)的概率測度 $P$;此外,還有一個稱為效用函數的隨機變量 $u$。
一個遵循 Savage 公理 的結構。
一個遵循 Jeffrey-Bolker 公理 的結構。
本文對這一選擇沒有太強的傾向。請注意,因果決策理論(CDT)認為我們需要的不僅僅是概率和效用;還需要某種反事實結構來提供因果信息(更像 Savage,儘管 CDT 還有許多其他形式化方法)。證據決策理論(EDT)則認為我們只需要概率和效用(更像 Jeffrey-Bolker)。
我將主觀狀態的類型稱為 $S$,保持具體形式的模糊性。
一個決策點 $d$ 是一個主觀狀態加上一組可用行動,$d = (s, A)$。$A$ 的確切類型將取決於 $s$ 的類型;例如,在 Jeffrey-Bolker 中,$A$ 將是一組智能體可以使其成真的事件,而在 Savage 中,$A$ 將是一組從狀態到結果的函數,智能體可以將其應用於世界。也可能存在從 $s$ 確定 $A$ 的約束,如 Daniel Herrmann 的《代理性自然化》 (Naturalizing Agency)中所述。
我稱之為「決策點」,是為了與我稍後定義的「決策問題」形成對比,我認為後者更合適。然而,對於我所說的建議立場的典型追隨者來說,這就是 一個決策問題。
範例 1: 透明紐康姆問題 ^([2] )
Omega 是一個強大且誠實的存在,能極好地預測他人的行動,並且喜歡讓人們面臨奇怪的決策。
Omega 給你兩個透明的盒子,一個小的和一個大的。小盒子裡裝滿了錢。
Omega 解釋說,盒子的填充過程如下:無論如何,小盒子都會裝滿 20 美元的鈔票;然後,Omega 會考慮如果你看到大盒子是滿的,你會怎麼做。如果你在這種情況下會留下小盒子,那麼 Omega 也會在大的盒子裡裝滿 20 美元的鈔票。
你看到大盒子是滿的。Omega 讓你選擇拿走兩個盒子,或者只拿走大盒子。你應該怎麼做?
CDT 和 EDT 都建議拿走兩個盒子。他們認為決策涉及一個已知大盒子是空的主觀狀態,因此唯一有意義的選擇(假設我們只在乎錢)是是否拿走小盒子。拿走它並得到那筆錢,總比什麼都沒有好。
UDT 則建議留下小盒子,推理如下:對於那些會留下小盒子的智能體,大盒子將會被裝滿錢。因此,成為那種即使在大盒子是空的情況下也會留下小盒子的智能體會更好。這樣的智能體能得到更多的錢。
理解 UDT 的一種方式是說,它堅持將可能行動的集合 $A$ 建模為政策集 (即從觀察到行動的可能函數),而不是單個行動的集合。CDT 和 EDT 的分析設定 $s$,使其僅代表你已經看到空盒子並正在決定做什麼的情況。UDT 的分析則堅持一個主觀狀態,該狀態對 Omega 描述的所有可能性進行建模,包括你看到空盒子的情況和你看到滿盒子的情況。從這個角度來看,一個在看到大盒子為空時不拿小盒子的政策是最好的,因為這樣事實上 我們會看到一個滿盒子。
這種分析可能會讓你相信 UDT 和 EDT/CDT 只是在問不同的問題;UDT 關乎政策優化(policy-optimality),而 EDT 和 CDT 關乎行動優化(action optimality)。UDT 只是在政策層面上應用了 EDT 的優化標準。問不同的問題,得到不同的答案。
據我所知,這就是 Daniel Herrmann 的觀點(基於面對面的討論),這也類似於 Will MacAskill 在**《功能決策理論批判》**(A Critique of Functional Decision Theory)中所表達的觀點:
在 CDT 的全局版本中,我們可以 同時說:(i) 背叛的行為是正確的行動(假設另一個智能體會糟糕地使用他們的錢);以及 (ii) 正確的人格類型是在囚徒困境中合作的那種。
這也與前面提到的 Cole Wyeth 關於行動理論與政策理論的觀點非常相似。
我的目標是反對這種將無更新理論與更新型理論進行調和的兼容論。最重要的是,我認為它違反了自然主義立場,因為一個「智能體」的核心是一系列相關決策的集合,這些決策之間具有某種連貫性(目的的連續性)。不過,我會把這個論點留到最後詳述;如果我先提出來自設計立場的反對意見,思路的發展會更順暢。
我認為決策理論的建議模型有其價值,但將「決策問題」僅僅解釋為一個決策點是一個錯誤,即使對於僅由單個決策點組成的決策問題也是如此。
我的策略是論證某些決策問題是「錯誤的」,其方式無法通過將決策問題解釋為決策點來解釋。
範例 2: 吸菸病灶 ^([3] )(Smoking Lesion)
吸菸與肺癌有強烈的相關性,但在「吸菸病灶」的世界中,這種相關性被理解為共同原因的結果:一種傾向於同時導致吸菸和癌症的基因病灶。一旦我們確定了病灶的存在與否,吸菸與癌症之間就沒有額外的相關性了。
假設你偏好「吸菸且無癌症」勝過「不吸菸且無癌症」,且偏好「吸菸且有癌症」勝過「不吸菸且有癌症」。你應該吸菸嗎?
通常說 CDT 選擇吸菸,而 EDT 選擇不吸菸,因為 CDT 看到在這種情況下吸菸不會導致癌症,但 EDT 看到相關性並判定吸菸是壞消息。EDT 的行為並非那麼明確(「搔癢防禦」論點暗示 EDT 的行為像 CDT),但我相信共識是 CDT 會吸菸。
如果你遵循 CDT 的建議,並且你意識到這一點,那麼你要麼無法相信統計數據(因為你預期人們會像你一樣吸菸),要麼無法相信這些數據適用於你自己(因為你與一般大眾不同,你遵循 CDT)。你無法一致地將 CDT 放入吸菸病灶問題中!
這使得吸菸病灶感覺「定義不完全」,這種方式讓我把它擱置了多年。思考它會導致不一致,那為什麼要考慮它呢?
然而,這與透明紐康姆問題中發生的情況非常相似!如果你是那種拿走一個盒子的智能體,那麼**你將不會面臨所描述的問題;**你無法被一致地放入那個問題中,因為你根本不會看到一個空盒子。
直覺上,透明紐康姆問題對我來說似乎定義得非常完美。
為了分析這種情況,我們需要更好地理解這種「不一致」,並弄清楚它對比較決策理論的意義。然而,決策點的概念無法勝任這項任務。從決策點的角度來看,範例 1 和範例 2 是完全一致的;主觀狀態遵循所有相關公理(無論是 Jeffrey-Bolker 還是 Savage 等)。
我們需要理解將一個智能體放入一個決策問題意味著什麼。
設計
一個決策程序 $P$ 是一個從決策點到行動的函數:$P: d \to a$。^([4] ) 我們感興趣的是源自決策理論的決策程序。在實踐中,一個決策理論可以啟發多個決策程序,但為了簡單起見,我將假裝決策理論唯一地推薦一個特定的決策程序。
建議立場將決策程序評判為一個理想的建議提供者,但設計立場則將其視為你放入 決策問題中以觀察其表現的東西。
一個決策問題 $D$ 是一個從決策程序到世界的(隨機)函數:$D: P \to w$。^([5] )
效用是判斷決策程序成功與否的重要部分,但世界被解釋為發生了什麼的軌跡。我們不能簡單地評估世界來獲得效用,因為我們在這裡沒有一個作為定義一部分的規範「先驗」主觀狀態。相反,決策問題可以調用決策點上的決策程序並觀察輸出。它不能讀取決策程序的源代碼。然而,除非我們排除這種情況,否則它可以查看多個決策點。
我們可能還想對決策問題的概念施加各種額外約束。例如,我們可能希望要求決策問題是無記憶的 POMDP。我們可能希望限制認識狀態通過特定的學習程序(如貝氏更新)進行更新。「決策理論的遊戲」變成了闡明有趣的決策問題及其類別、決策程序以及對決策程序的訴求。粗略地說,一個好的決策程序是在廣泛的問題上都能獲得高預期效用的程序。
這個定義的優點是我們可以看到決策程序何時「不適合」一個決策問題。我們可以計算會發生什麼!如果我們將 CDT 的決策程序放入吸菸病灶問題,輸入到主觀狀態中決策程序的「主觀概率」將與輸出世界中的「客觀概率」不匹配。
向智能體錯誤地 描述決策問題,卻仍期望它給出正確答案,這似乎極不公平!
你不需要相信失準(miscalibrated)的決策問題是「不公平」的,也能接受我對決策問題定義的論點。你只需要認可「這是一個有意義的區別」這一較弱的主張。
然而,這種直覺的形式化仍然不完全顯而易見。我至少能想到兩個看似合理的定義。
觀察校準(Observation Calibration)
一個決策問題 $D$ 在輸入 $P$ 下是觀察校準 的,如果它是一個無記憶的 POMDP(因此每次對決策程序的調用都與一個觀察事件相關聯),^([6] ) 並且進一步地,與調用相關聯的主觀狀態具有與真實 $P(w|e)$ 相等的概率 $P(w)$。(當 $P(e)=0$ 時,此約束不適用。)主觀效用估計也必須同樣經過校準。
這符合我的直覺,即透明紐康姆問題沒問題,但吸菸病灶問題在某種程度上是有缺陷的。在透明紐康姆問題的情況下,輸入給決策程序的主觀狀態與出現的世界實際統計數據不一致,至少在給定 CDT 的決策程序時是如此。這對我來說似乎是對的;有一種機械式的方法可以將任意決策程序放入透明紐康姆所描述的情境中,而吸菸病灶問題則不然。
觀察校準聽起來可能是一個對 EDT 不友好的標準。它要求對於不會被選中的行動,其行動概率必須為零。EDT 無法評估此類行動的預期效用。有幾種方法可以解決這個問題:
採用一個永遠不會選擇概率為零的行動的決策程序。這缺點是允許決策問題強迫 EDT 採取任何特定行動。我認為這是一個真正的缺陷。^([7] )
宣稱 EDT 推薦的決策程序具有「手抖」(trembling hand);所有行動都以至少某個微小的概率被採取(考慮抖動趨於零的極限)。這似乎是一個不錯的選擇,因為它與學習理論背景有很好的類比,在該背景下,智能體的概率估計和決策通過經驗變得良好。
將校準條件限制在行動以外的命題上。以行動為條件 的條件概率仍應經過校準,但有人可能會聲稱,這就是做出良好決策所需的全部。
我想還有其他修改方式來適應 EDT。我在這裡不會太過主觀。
主觀狀態校準(Subjective State Calibration)
再次假設決策問題是一個無記憶的 POMDP,但這一次,觀察僅僅是一個完整的主觀狀態,而不是一個事件。我們可以對 POMDP 的一次「運行」進行採樣,這涉及觀察到的主觀狀態的歷史。如果對於輸入 $P$,在運行中出現某個認識狀態的條件下,該認識狀態與該分佈相匹配:$P(w|s) = s.P(w)$,那麼這樣的決策問題就是主觀狀態校準 的。
這個定義可以很容易地修改為類似 SSA 或 SIA 的形式。我不大喜歡定義必須預設對人類擇原理(anthropics)的看法,我認為這是該定義的一個缺點。儘管如此,我認為這指向了一個真實的想法。
對於所有決策程序來說,對透明紐康姆問題的天真處理並非主觀狀態校準的;看到滿盒子的主觀狀態可以在盒子實際上並不滿的情況下被查詢,因為 Omega 只是在想像一個假設。
我們可以通過讓 Omega 的假設查詢一個知道「我看到了似乎是滿的盒子」而不是真正相信盒子是滿的主觀狀態來挽救這個決策問題;然後要求智能體對於當盒子看起來是滿的時候,它是否實際上是滿的具有校準後的概率。本質上,Omega 被禁止在假設中真正愚弄智能體;Omega 只被允許想像那些知道自己可能是虛構的、並能適當區分 Omega 想像中發生的事與現實世界中發生的事的智能體。
儘管如此,在任何一種情況下,這都說明了主觀狀態校準是一個比觀察校準更具「更新性」的想法。它排除了強大的預測者想像一個智能體觀察到某些可能不會發生的事情的情況,而這正是激發無更新性的決策問題的典型特徵。它轉而要求智能體擁有以更新方式做出正確決策所需的信息,就像經典 UDT 問題的基於人類擇原理的解決方案一樣。Omega 憑空想像一個反事實情況而不對其採取任何行動,可以改變一個主觀狀態校準的決策問題(為了重新獲得校準,可能需要更改對決策過程的其他調用),而對於觀察校準來說這並不重要(只要憑空調用本身是校準的,就沒問題)。
觀察校準和主觀狀態校準可以通過「超條件化」(superconditioning)聯繫起來,這是一種將任意更新視為更大概率空間中的貝氏更新的方法。超條件化僅要求概率不從零變為正,因此條件非常寬鬆;基本上所有主觀狀態校準的決策問題都可以解釋為觀察校準。天真地看,我們似乎無法在不實質性限制強大預測者的情況下,將決策問題向另一個方向轉化。這符合「無更新性比更新性更具普遍性」的直覺。然而,我也能預見自己會接受這兩個條件實際上具有同等表達能力的觀點。
如果你接受觀察校準因更具普遍性而更好,並同意通過決策程序在決策問題上的平均表現來評判它,那麼這就不再是你問什麼問題的問題了。在透明紐康姆問題中,選一個盒子更好,因為選一個盒子的智能體具有更高的平均效用。在反事實勒索(Counterfactual Mugging)中接受交易更好。UDT 是最優的。
然而,UDT 的前景並非全然美好。UDT 為任何觀察校準的決策問題定義了一個最優決策程序,但它沒有定義一個 對每個 觀察校準的決策問題都是最優的決策程序。決策問題並不提供先驗 ,這意味著要計算 UDT,先驗必須由決策程序提供!
這是 UDT 的真正代價;對於 UDT 的追隨者來說,主要的哲學問題之一是現實生活中的先驗概念是什麼(例如,它應該知道哪些數學真理?)。
CDT 和 EDT 則標榜更高的標準;它們可能在較少的決策問題上是最優的,但它們不需要先驗的額外信息就能做到這一點,因為它們的建議僅取決於決策點。(誠然,CDT 需要 EDT 不需要因果信息。)
如果你的智能體概念已經配備了先驗,那麼代價就很低,這在貝氏圖景(如 AIXI 及其變體)中通常是這種情況。
如果你認同觀察校準更具普遍性,那麼收益也是顯著的。
然而,我想理解涉及「本體偏移」(ontology shifts)的情況,允許 $\sigma$-代數在單個決策問題的主觀狀態之間發生變化。這對於形式化人類與 AI 之間的信任問題似乎很重要。在這種情況下,假設先驗的代價似乎很高。(一種可能的解決方案是將先驗作為主觀狀態的一部分,與後驗並列;這給出了一種開放心態的無更新性。)
校準是一個合理的合理要求嗎?
David Lewis 在《因果決策理論》 中反對類校準屬性時說(強調為後加):
我的回答是,「搔癢防禦」確實證明了紐康姆問題不會發生在一個完全理性的智能體身上,但決策理論不應僅限於應用於完全理性的智能體。至少如果理性被認為包括自我知識的話,事實並非如此。難道我們不能問,對於一個部分理性的智能體來說,什麼樣的選擇是理性的,以及他那部分理性的決策方法是否能正確引導他嗎?
我認為這源於建議提供的視角:Lewis 希望決策理論能為智能體闡明正確的建議,並且可以想像為稍微不理性的智能體提供建議。設計立場則更傾向於拒絕這種想法:我們不會故意在設計中引入缺陷!
我不認為 Lewis 是在為任意形式的不理性辯護;我認為他的意圖是管理主觀狀態的連貫性公理仍應得到滿足。他是在為因果決策理論辯護,而不是某種更深層的有界理性理論。相反,這裡的「不理性」似乎是指主觀概率與決策問題所隱含的概率之間的失配,「至少在涉及自我知識時」。
放棄校準對我來說似乎很危險。某種形式的校準似乎對於區分「決策程序可以被放入的決策問題」與「不能被放入的決策問題」至關重要。當決策理論沒有被賦予校準後的信念時,因其表現不佳而批評它,這是有問題的。
然而,校準並不 總是一個現實的假設。智能體可能會對環境產生深刻的誤解。許多學習過程(如貝氏更新)並不能保證隨著時間的推移而變得校準。
我認為只有通過將校準替換為更現實的學習理論保證,放棄校準才有意義。學習理論版本的決策問題通過檢驗智能體是否/何時可以學習 ,更徹底地解決了「我們如何將決策程序放入所描述的決策問題?」這一問題。
在不涉及學習的情況下,我認為某種形式的校準是重要的。沒有學習的經典決策問題要求智能體理解它所處的境遇。此外,我認為校準圖景對於更現實的學習理論設置是一個很好的類比,特別是關於 Lewis 所爭論的那種「自我知識」:智能體可能缺乏對其信念、偏好或決策程序的內省訪問,但儘管如此,他們應該隨著時間的推移了解自己的行為(這足以支撐 Lewis 反對的「搔癢防禦」)。
我們如何處理失準的情況?
撇開如何準確定義校準的問題,我們應該如何處理失準的情況?我們該如何對待對 CDT 來說不校準的吸菸病灶問題?我們應該完全把它擱置一旁嗎?
一種誘人的建議是,決策問題應該對每個決策程序都經過校準。畢竟,缺乏校準似乎使得一個範例在決策理論上失去了意義。
然而,再三思考後,我們可以有意義地批評一個決策程序在某個決策問題上的行為,而不需要該決策問題對其他 決策程序也經過校準。當一個決策問題對兩個決策程序都經過校準時,我們可以有意義地比較它們的表現。
此外,失準通常似乎是決策程序的一個積極信號。這意味著該決策程序無法被放入該問題中,這意味著我們不能抱怨它犯了錯誤。從設計立場來看,這代表了無法發生的問題。
另一方面,失準似乎並不顯然總是優於任何校準後的行為。Nate 的文章標題並不是「決策是為了使結果不一致 」。
我認為(除非我們在做學習理論)失準通常是對決策程序的一種強烈的啟發式肯定(我們不應批評它在永遠不會發生的情況下的表現),但也會有一些情況,失準反映的是決策程序的缺陷,而非決策問題的缺陷。
自然主義
設計立場起初可能看起來與自然主義相悖;智能體是在環境中被觀察到的,而不是作為一個抽象的決策程序。這更符合決策點而非決策問題:你無法詢問不同的決策程序會發生什麼。你只是觀察智能體的現狀。
然而,我認為自然主義視角本身就為我對觀察校準決策問題(或類似事物)的定義提供了一個論點。
在野外觀察到的智能體,核心是由密集的目標網絡統一起來的、大量偶然的「巧合」。鯊魚的皮膚幫助它在水中滑行。龍貓的牙齒適合它吃的草。心臟泵血。動物尋找食物。等等。許多事物在這個目標網絡中共同協作。
當然也有例外,但核心是,一個智能體的各個部分不會互相打架;它們不是衝突的。對於具有這種共同目標的決策點,好的建議不應建議內鬥。好的建議應該服務於聽者的目標。
這個想法允許我們判斷一個決策問題是否是單智能體的(所有決策點都表現得合作/共享一個目標)。
即使你接受主觀狀態校準,我認為你也應該認可一個「反衝突原則」。
嘗試定義這一點的一種方法是,相對於決策問題調用的所有決策點的偏好,決策程序具有帕累托最優性(Pareto-optimality)。如果存在帕累托改進,就存在衝突。這不是一個糟糕的形式化,但我認為它不是唯一感興趣的選擇。
我認為幾何 UDT(Geometric UDT)背後的想法也很有趣。世界上的劃分定義了我們的道德不確定性。帕累托最優性是相對於這個劃分而言的。如果劃分是最大粗糙的(只有一個部分,包含所有可能的世界),我們就回到了純粹的 UDT。我認為我們大概可以通過將道德不確定性表示為一個隨機變量來推廣這個圖景,該隨機變量誘導出一個子 $\sigma$-代數。這個隨機變量代表「我們可能關心的事物」。不同的決策點實際上可以具有不同的效用函數,因為它們對道德不確定性對象持有不同的信念。如果道德不確定性足夠細粒度,那麼規範上正確的行為就是完全更新型的。另一方面,如果道德不確定性完全解決了(智能體對單一概率和效用有信心),那麼規範行為就是完全更新型的。
在這樣的圖景中,共同目標是由道德不確定性的共同對象表示的,而不一定是關於該對象的共同信念。一個智能體被允許偏好避免反事實勒索,因為它想要它在現實世界中的效用,而不是在其他世界中的效用;Omega 的硬幣究竟落在哪一面,是智能體道德不確定性的一部分。
(這個圖景尚未完全成型,我對細節還不確定。)
結論
我認為我對決策問題的看法比決策點的概念更適合測試決策程序,因為它要求一個關於所提供的決策程序如何能被放入所描述的問題中的故事,使我們能夠拋棄那些基於決策程序永遠不會遇到的問題而提出的投訴。
觀察校準將這種直覺形式化,其方式有利於 UDT,而主觀狀態校準則有利於更新型決策程序。兩者似乎都捕捉到了一些有意義的東西。
校準條件最終是不現實的,但它們似乎是替代學習理論處理的一種不錯的抽象。
代理性通常涉及許多具有某種共同目的性的決策,因此智能體通常不會自我鬥爭。我推測這可以以一種允許更新型或無更新型行為的方式被形式化。
我在這裡闡述的觀點並非徹底的主觀主義,因為決策問題具有「客觀」概率。我不認為這是一個缺陷。決策問題本身仍然是主觀的(由某個主體想像出來的)。
^(^ ) Cole 將這三者都視為規範性的而非描述性的,更重要的是,Cole 認為它們應該是不同的領域,而不是對同一領域活動的三種視角。
^(^ ) 透明紐康姆問題有許多細微的變體,但在我所知的大多數理論中,這些差異並不重要。Omega 可以以等於其對你會選一個盒子的信念的概率 來填充盒子,這樣我們就可以輕鬆推廣到預測不完美的、會犯錯的 Omega。Omega 可以只看你看到滿盒子的情況,只看你看到空盒子的情況,或者兩者都看。如果是兩者都看,Omega 可能要求你無論空還是滿 都只拿大盒子,或者 Omega 可以在兩種情況之間取平均值(以跨越空或滿的加權總和計算出的概率來填充大盒子)。
^(^ ) 也被稱為 Solomon's Problem 。
^(^ ) 如果有人希望允許混合策略,這可能是一個隨機函數。
^(^ ) 如果我們有一個樣本空間 $\Omega$ 作為我們主觀狀態概念的一部分,那麼一個世界就是一個元素 $\omega \in \Omega$。如果沒有,則需要找到一個類似的「世界」概念,以使決策問題的定義生效(例如原子、超濾器)。
對我而言,世界包含關於選擇了哪個行動的信息是很重要的(這在 Savage 中不一定成立)。
^(^ ) 請注意,我並未假設最後產出的世界將與沿途使用的所有觀察事件一致;我們被允許擁有「虛假觀察」,例如 Omega 在假設情境中檢查你會做什麼。如果我們想排除這一點,我們必須明確地這樣做;觀察校準並不負責此事。
^(^ ) 你可以說,如果主觀狀態規定某個行動的概率為零,那麼決策程序就不應因忽略選擇它而受到指責;畢竟,它被告知這樣的行動是不可能的。然而,用 Nate Soares 在《決策理論是為了使糟糕的結果不一致》 中的語言來說,它「本來會 奏效,這就足夠了」。在本文的形式化中:決策程序總是可以選擇行動集中的任何行動;它只是可能使決策問題變得失準。決策理論不能因其在失準的決策問題上的表現而受到批評。此外,如果我們特別使用條件校準,採取概率為零的行動可能不會 導致決策問題失準,並且在這種情況下,可能會導致更好的結果。
我認為這是一個真正的缺陷,部分原因是這個版本的 EDT 可能會被一個糟糕的先驗困住,該先驗無緣無故地排除了好的行動。
你可能會問:「那個糟糕的先驗是從哪裡來的?為什麼我們要假設好的行動會被錯誤地分配零概率?這難道不和被塞給一個失準的概率分佈一樣不公平嗎?」但我並不這麼認為。這個問題有一個真實的學習理論類比。正如概率為零的行動對 EDT 來說是未定義的一樣,低概率行動的後果在學習理論設置中也會受到證據的欠約束(underconstrained),因為低概率事件發生的次數必然較少(如果智能體在理智地學習)。因此,一個不幸的先驗可能會讓智能體害怕那些行動(它錯誤地認為它們是災難性的),所以它避開它們(就像我們討論的由於無法評估而避開概率為零的行動一樣)。
既然這是一個真實的學習理論問題,那麼非學習理論的類比似乎也應該被視為一個問題。在兩種情況下,我們麼需要提供一個確保以足夠概率採取行動(探索)的決策程序,要麼以其他方式緩解問題,要麼接受不這樣做所帶來的負面影響,將其視為整體划算交易中的一項成本。