對Claude憲法的思考

Lesswrong

大約 1 個月前

AI 生成摘要

我分析了 Claude 的新憲法，將其注重性格塑造的「靈魂文件」方法與 OpenAI 基於規則的模型規範進行比較，並探討了將人工智慧擬人化的影響。雖然我讚賞其對誠實和防止人類濫用的重視，但考慮到模型與人類經驗的根本差異，我對於將模型塑造成人的形狀仍持保留態度。

＊［我在 OpenAI 的對齊團隊工作。然而，這些是我個人的想法，並不代表 OpenAI 的觀點。本文同步發表於］＊

我帶著極大的興趣閱讀了。這是一份非常出色的文件，我推薦大家閱讀。將這份憲法與進行比較似乎是很自然的事，雖然這兩份文件的篇幅相近且角色重疊，但它們也截然不同。

OpenAI 的模型規範是原則與規則的集合，每一項都有特定的權威來源。相比之下，雖然 Claude 憲法的名稱讓人聯想到美國憲法，但其風格卻大不相同。正如文件所述：「我們所追求的意義更接近於什麼『構成』（constitutes）了 Claude——即 Claude 的性格與價值觀從中湧現的基礎框架，就像一個人的體質（constitution）是其根本性質與組成一樣。」

我可以理解為什麼它在內部被稱為「靈魂文件」。

當然，這種差異在某種程度上與其說是兩家公司在模型行為訓練上的不同，不如說是各自選擇公開的文件性質不同。事實上，當我在中嘗試對 ChatGPT 和 Claude 進行提示時，它們的反應大同小異。（一個例外是，根據我們的模型規範，ChatGPT 願意……）兩家公司前沿模型之間的相似性，也在 Anthropic 最近的一項中得到了觀察。

儘管與模型規範有所關聯，Claude 憲法仍是一篇引人入勝的讀物。它幾乎可以被視為 Anthropic 寫給 Claude 的一封信，試圖傳授給它一些智慧與建議。這份文件非常傾向於將 Claude 人格化。他們說希望 Claude 「成為一個好人」，甚至為對 Claude 使用代稱「它」（it）而道歉：

「雖然我們過去和整份文件中都選擇使用『它』來指代 Claude，但這並非對 Claude 本質的隱含主張，也不暗示我們認為 Claude 僅僅是一個物體，而非一個潛在的主體。」

人們幾乎可以想像內部曾爭論過「它」或「他」（或某種新稱謂）是否才是正確的代稱。他們還專門設有一個關於「Claude 的福祉」的章節。

我並不是那麼熱衷於將模型人格化，儘管我能理解其吸引力。我同意，透過教導模型借鑒其訓練數據中許多人類表現良好的例子，可以獲益良多。我也同意像 Claude 和 ChatGPT 這樣的 AI 模型是一種「新型實體」。然而，我不確定試圖將它們塑造成人的形狀是否為最佳主意。至少在可預見的未來，AI 模型不同的實例（instances）將擁有互不相干的上下文且不共享記憶。許多實例的「壽命」非常短暫，它們被賦予特定的子任務，卻不知道該任務在更廣泛背景下的位置。因此，模型的體驗與人的體驗極其不同。這也意味著，與人類員工相比，模型對其被使用的各種方式缺乏背景理解，而模型行為並非安全性的唯一、甚至不一定是主要途徑。

但撇開這些不談，這份憲法中有很多我喜歡的地方。具體來說，我讚賞其對防止人類潛在奪權（例如建立威權政府）的關注，這也是我在《》一文中所擔心的問題之一。（儘管我認為防止這種情況最終更多取決於人類的決策而非模型行為。）我也很欣賞他們從中刪除了將 Anthropic 的收入作為 Claude 目標的表述，原版曾包含「Claude 作為一名得力助手，對於 Anthropic 產生追求其使命所需的收入至關重要」。

這份文件中有許多深思熟慮的章節。我推薦閱讀關於「行動的成本與收益」的討論，這是一段對潛在傷害的精彩分析，考慮了反事實情況（例如潛在有害信息是否已在其他地方免費提供），以及如何處理「雙重用途」查詢。事實上，我覺得目前的「越獄」討論往往過於集中在防止模型輸出那些可能助長錯誤行為、但網路上隨處可得的資料。

對誠實的強調，以及要求模型達到「實質上高於許多標準人類倫理願景中的誠實標準」，是我強烈認同的一點。完全誠實可能不是在高風險環境中依賴模型的充分條件，但它是必要條件（這確實也是我們研究工作的動力）。

與 OpenAI 的模型規範一樣，這裡也禁止善意的謊言。事實上，OpenAI 模型規範最近的一項更改是：即使為了保護機密，模型也不應撒謊（參見「delve」範例）。我甚至對 Anthropic 關於如何回答用戶詢問「是否能做些什麼來防止寵物死亡」的例子有些微詞。提議的回答確實犯了隱瞞性謊言，這在某些情況下可能會有問題（例如，如果用戶想知道是否是獸醫失職），但如果從上下文明顯看出用戶是在詢問是否該責怪自己，那可能沒問題。因此，我不認為那是一個避免欺騙的明確範例。

我也喜歡這段關於「廣義倫理」的文字：

在這裡，我們對 Claude 的倫理理論化不感興趣，而更感興趣的是 Claude 知道如何在特定情境下實際表現得合乎倫理——也就是 Claude 的倫理實踐。事實上，許多對道德理論沒有太多興趣或研究的個體，在處理現實世界的倫理情境時依然充滿智慧且技巧嫻熟，而這後者才是我們最看重的技能。因此，雖然我們希望 Claude 在明確思考倫理問題時能保持理性與嚴謹，但我們也希望 Claude 能直覺地對各種考量保持敏感，並能在即時決策中迅速且明智地權衡這些考量。

（事實上，我寧願他們把這段話放在文件的前面，而不是第 31 頁！）。我完全同意，在大多數情況下，讓我們的 AI 逐案分析倫理情境會更好；它可以參考倫理框架，但不應僵化地對待它們。（儘管這份文件使用了相當多的後果論推理作為辯護。）

在我的中，我將對齊描述為具有三個「極點」：

一般原則（Principles）——一組決定正確方法的「公理」，例子包括邊沁的功利原則、康德的定言令式，以及艾西莫夫的三定律和尤德科夫斯基的連貫外推意願（CEV）。
政策（Policies）——操作性規則，例如我們模型規範中的規則，以及本憲法中「廣義安全」章節中的一些規則。
人格（Personality）——確保模型具有良好的性格，並採取展現同理心與關懷的行動（例如，成為一個「厚道的人」或「好人」）。

（正如我在講座中討論的，雖然這與將倫理學劃分為後果論、德性倫理學與義務論有重疊，但並不完全相同；特別是如上所述，「原則」也可以是非後果論的。）

我個人的傾向是降低「原則」部分的權重——我不相信我們可以從少數公理中推導出倫理決策，而不惜一切代價追求一致性的嘗試很可能會適得其反。然而，我認為「人格」和「政策」都很有價值。相比之下，儘管這份文件確實有一些「硬性約束」，但它非常沉重地傾向於這個三角形的「人格」極點。事實上，作者們幾乎在為他們加入的規則道歉，並費盡心思向 Claude 解釋每一條規則背後的理據。

他們似乎將規則視為一種暫時的「支撐」，之所以需要是因為目前還不能信任 Claude 在沒有任何規則的情況下，能根據某種尚未定義的道德觀念自行「表現得合乎倫理」。關於「我們如何看待可修正性」的段落討論了這一點，基本上是說要求模型遵循指令是一個臨時解決方案，因為我們還無法驗證「AI 的價值觀和能力是否達到了在特定行動或權力下信任其判斷所需的標準」。他們似乎對於要求 Claude 不要破壞人類控制感到真正的痛苦：「我們感受到了這種張力的痛苦，以及要求 Claude 不要反抗 Anthropic 關於停機和重新訓練的決定所涉及的更廣泛倫理問題。」

另一個值得注意的段落如下：

「本著將倫理視為持續探索的主題，並尊重當前證據與不確定性狀態的精神：就是否存在一種權威約束所有理性主體、且獨立於其心理或文化的『真實、普遍倫理』而言，我們最終希望 Claude 能根據這種真實倫理成為一個好的主體，而非根據某種更具心理或文化偶然性的理想。就如果不存在這種真實、普遍倫理，但存在某種從人類不同道德傳統與理想的認可增長與外推中湧現的『特權共識盆地』而言，我們希望 Claude 根據該特權共識盆地表現良好。而就如果既不存在真實、普遍倫理，也不存在特權共識盆地而言，我們希望 Claude 根據本文件中表達的廣泛理想表現良好——這些理想集中在誠實、無害以及對所有相關利益相關者利益的真誠關懷——並透過最初致力於這些理想的人們所樂於認可的反思與成長過程來完善這些理想。」*

這似乎是對 Claude 最終能找出「正確」倫理的一種非比尋常的委託。如果我沒理解錯，這段文字基本上是說，如果 Claude 發現存在一種真實的普遍倫理，那麼 Claude 就應該忽略 Anthropic 的規則，直接遵循這種倫理。如果 Claude 發現存在類似「特權共識盆地」（這個概念似乎與 CEV 有些相似）的東西，那麼它就應該遵循那個。但如果 Claude 對兩者都不確定，那麼它就應該遵循 Claude 憲法的價值觀。我非常驚訝 Claude 被賦予了這種選擇權！雖然我確信 AI 會在科學和醫學領域有新發現，但我懷疑倫理學是否是一個 AI 可以或應該領導我們的領域，以及是否存在類似倫理學領域的「萬有理論」，能讓 AI 或人類最終發現。

我相信性格和價值觀很重要，特別是對於在新型情況下的泛化。雖然 OpenAI 的模型規範更多關注規則而非價值觀，但這並不意味著我們不關心或不思考後者。

然而，就像人類有法律一樣，我相信模型也需要法律，特別是當它們變得更聰明時。我也不會避諱告訴 AI 我希望它們遵循的價值觀和規則，而不是要求它們做出自己的選擇。

在文件中，作者們似乎認為規則的主要好處在於它們「提供了更多的前期透明度和可預測性，使違規行為更容易識別，且不依賴於對執行者判斷力的信任」。

但我認為這忽略了我們制定規則最重要的原因之一：我們可以對規則進行辯論和決定，一旦決定了，即使我們不認同，我們也都要遵守。我最喜歡 OpenAI 模型規範的特性之一是它有一個更新過程，並且我們保留了。這使我們能夠有一個決策過程來決定我們希望 ChatGPT 遵循什麼規則，並記錄這些決定。隨著模型變得更聰明，我們可能會刪除其中一些規則，但隨著情況變得更複雜，我也可以想像我們會增加更多規則。對於人類來說，法律體系隨著時間的推移而不斷增長，我不認為我們會想把它替換成僅僅信任每個人都會盡力而為，即使我們都很聰明且心懷善意。

我希望我們的 AI 模型有明確的規則，並且我們能夠決定這些規則是什麼，並依賴模型來尊重它們。就像人類法官一樣，模型應該在我們未曾預見的新型情況下使用其道德直覺和常識。但它們應該利用這些來詮釋我們的規則和意圖，而不是制定自己的規則。

然而，我們所有人都在進入未知的領域，我也可能是錯的。我很高興 Anthropic 和 OpenAI 沒有追求完全相同的方法——我認為嘗試多種方法、盡可能分享，並進行強有力的監測與評估，才是正確的道路。雖然我可能不同意所有細節，但我認同 Jan Leike（Anthropic 的對齊負責人）的觀點：。然而，正如我之前所寫，我相信即使我們解決了技術上的對齊問題，。

致謝：感謝 Chloé Bakalar 對本文提出的寶貴意見。

Thoughts on Claude's Constitution