關於目標模型

Lesswrong

26 天前

AI 生成摘要

我提議將智慧代理人的目標重新構想為「目標模型」——即關於理想狀態的生成模型——而非全域效用函數，並強調局部控制與願景優於淺層的選擇過程。

我傾向於將我們對智慧代理人（intelligent agents）目標的理解，從「效用函數」（utility functions）重新框架為「目標模型」（goal-models）。我所指的目標模型與世界模型（world-model）屬於同類事物，只不過它代表的是你「希望」世界呈現的樣子，而非你認為世界「實際」的樣子。然而，請注意這仍然是一個相當雛形的想法，因為我實際上並不完全了解世界模型是什麼。本文餘下的部分包含了一些關於目標模型及其與效用函數關係的抽象思考。

目標模型的概念廣泛受到預測處理（predictive processing）的啟發，該理論將信念和目標都視為對觀察和行動的生成模型（前者主要預測觀察，後者主要「預測」行動）。這是一個非常有用的想法，例如它讓我們能夠討論信念與目標之間的「距離」，以及朝向目標移動的過程（這兩者在獎勵/效用函數的視角下都缺乏意義）。

然而，我對將世界模型定義為觀察值的生成模型這一想法感到不滿。這感覺就像將議會定義為法律的生成模型。是的，技術上我們可以將議會視為隨機輸出法律的機構，但實際上真正有趣的部分在於它們「如何」做到這一點。以議會為例，你會看到內部存在分歧與討價還價的過程，最終達成某種妥協的輸出。在世界模型的案例中，我們或許可以將其視為由許多較小的（局部）生成模型組成，它們有時達成共識，有時產生分歧。真正的問題在於它們如何達成足夠的共識，以產生單一的輸出預測。

這種共識形成過程的一個潛在模型來自（probabilistic dependency graph formalism），這是貝氏網路的一種版本，其中允許不同節點彼此「分歧」。將 PDG 轉換為單一分佈最符合原則的方法，是找到一個能使所有節點間的不一致性最小化的分佈。PDG 在某些方面看似大有可為，但我對任何「全局性」的不一致性指標持懷疑態度。相反地，我對無尺度（scale-free）的方法感興趣，在這種方法下，不一致性主要在局部得到解決（儘管值得注意的是，Oliver 提出的確實是局部的）。

也有可能預測處理或主動推理（active inference）領域的人士已經有了更好的模型來描述這個過程，只是我還沒深入研究相關文獻，所以尚不知曉。

無論如何，假設我們暫且將目標模型視為觀察和行動的生成模型。這比用效用函數來理解目標能帶給我們什麼好處？關鍵的權衡在於：效用函數是「全局」但「淺層」的，而目標模型則是「局部」但「深層」的。

也就是說：我們通常認為效用函數是以世界的任何狀態（或任何軌跡）作為輸入，並輸出一個實數。因此，效用函數的核心範例通常是基於相當簡單的特徵，這些特徵基本上在所有可能的世界中都能被評估——例如，一籃子商品的消費函數（在經濟學中）或個人福利的函數（在價值論中）。

相反地，考慮擁有一個創造一幅美麗畫作或一座偉大教堂的目標。你無法將結果評估為簡單特徵（如筆觸質量、構圖質量等）的函數。相反，你對理想狀態有一種整體的感覺，這可能包括畫作或教堂各部分如何相互契合的方式。要對一座給定的教堂與你的理想有多「遠」給出有意義的分數，或者你是否願意選擇 X% 機率的一座教堂對比 Y% 機率的另一座，可能非常困難。事實上，這感覺像是問錯了問題——藝術家和建築師之所以偉大，部分原因在於他們「不願意」在追求願景的過程中妥協。相反，他們不斷朝著任何看似能讓他們更接近單一終極目標的方向移動。

這與有關。一顆鎖定目標的火箭並不會計算往任何特定方向偏離會有多好或多壞。相反，它不斷檢查自己是否在軌道上，然後進行調整以維持軌跡。問題在於，我們是否能將智慧代理人視為以類似方式在更高維度的空間中「導航」。我認為當你距離目標足夠近（即「局部」）時，這最有意義。例如，我們可以將執行長視為主要試圖讓公司保持在穩定的上升軌跡上。

相反地，一個想成為大公司執行長的高中生，距離目標如此遙遠，很難將其視為在「控制」通往目標的路徑。相反，他們首先需要根據每個計劃成功的可能性，在成為執行長的各種計劃之間進行「選擇」。同樣地，舞者或音樂家在練習或表演時，最適合被描述為執行控制過程——但他們需要做出離散的選擇，決定學習哪首曲子，更廣泛地說，決定專注於哪種樂器或舞蹈風格，甚至更廣泛地說，決定追求哪條職業道路。當然，火箭在瞄準之前，首先需要選擇聚焦於哪個目標。

因此，人們很容易將選擇視為「外迴路」（outer loop），將控制視為「內迴路」（inner loop）。但我想要提供另一種觀點。我們做出選擇的標準究竟從何而來？我認為這實際上是另一個控制過程——具體來說，是控制我們「身份」（identities）的過程。我們對自己有某些構想（「我是一個好人」或「我是成功的」或「人們愛我」）。接著，我們不斷調整生活和行動以維持這些身份——例如，透過選擇與這些身份最一致的目標和計劃，並無視可能證偽我們身份的證據。所以，或許我們的最外層迴路終究是一個控制過程。

這些身份（或「身份模型」）本質上是局部的，因為它們是關於「我們自己」，而非更廣闊的世界。如果我們每個人都追求源自個人身份的個別目標和計劃，那麼我們將很難合作。然而，擴展基於身份的決策的一種方法，是發展出具有特定屬性的身份：當許多人追求這些身份時，這些人會成為一個能夠同步行動的「」（distributed agent）。

On Goal-Models