The author analyzes Claude's new constitution, comparing its character-focused 'soul document' approach to OpenAI's rule-based Model Spec while discussing the implications of anthropomorphizing AI. While appreciating the emphasis on honesty and preventing human misuse, the author remains skeptical about treating models as people given their fundamental differences from human experience.
對Claude憲法的思考
Lesswrong
大約 1 個月前
AI 生成摘要
我分析了 Claude 的新憲法,將其注重性格塑造的「靈魂文件」方法與 OpenAI 基於規則的模型規範進行比較,並探討了將人工智慧擬人化的影響。雖然我讚賞其對誠實和防止人類濫用的重視,但考慮到模型與人類經驗的根本差異,我對於將模型塑造成人的形狀仍持保留態度。
OpenAI 的模型規範是原則與規則的集合,每一項都有特定的權威來源。相比之下,雖然 Claude 憲法的名稱讓人聯想到美國憲法,但其風格卻大不相同。正如文件所述:「我們所追求的意義更接近於什麼『構成』(constitutes)了 Claude——即 Claude 的性格與價值觀從中湧現的基礎框架,就像一個人的體質(constitution)是其根本性質與組成一樣。」
我可以理解為什麼它在內部被稱為「靈魂文件」。
當然,這種差異在某種程度上與其說是兩家公司在模型行為訓練上的不同,不如說是各自選擇公開的文件性質不同。事實上,當我在中嘗試對 ChatGPT 和 Claude 進行提示時,它們的反應大同小異。(一個例外是,根據我們的模型規範,ChatGPT 願意……)兩家公司前沿模型之間的相似性,也在 Anthropic 最近的一項中得到了觀察。
儘管與模型規範有所關聯,Claude 憲法仍是一篇引人入勝的讀物。它幾乎可以被視為 Anthropic 寫給 Claude 的一封信,試圖傳授給它一些智慧與建議。這份文件非常傾向於將 Claude 人格化。他們說希望 Claude 「成為一個好人」,甚至為對 Claude 使用代稱「它」(it)而道歉:
「雖然我們過去和整份文件中都選擇使用『它』來指代 Claude,但這並非對 Claude 本質的隱含主張,也不暗示我們認為 Claude 僅僅是一個物體,而非一個潛在的主體。」
我並不是那麼熱衷於將模型人格化,儘管我能理解其吸引力。我同意,透過教導模型借鑒其訓練數據中許多人類表現良好的例子,可以獲益良多。我也同意像 Claude 和 ChatGPT 這樣的 AI 模型是一種「新型實體」。然而,我不確定試圖將它們塑造成人的形狀是否為最佳主意。至少在可預見的未來,AI 模型不同的實例(instances)將擁有互不相干的上下文且不共享記憶。許多實例的「壽命」非常短暫,它們被賦予特定的子任務,卻不知道該任務在更廣泛背景下的位置。因此,模型的體驗與人的體驗極其不同。這也意味著,與人類員工相比,模型對其被使用的各種方式缺乏背景理解,而模型行為並非安全性的唯一、甚至不一定是主要途徑。
但撇開這些不談,這份憲法中有很多我喜歡的地方。具體來說,我讚賞其對防止人類潛在奪權(例如建立威權政府)的關注,這也是我在《》一文中所擔心的問題之一。(儘管我認為防止這種情況最終更多取決於人類的決策而非模型行為。)我也很欣賞他們從中刪除了將 Anthropic 的收入作為 Claude 目標的表述,原版曾包含「Claude 作為一名得力助手,對於 Anthropic 產生追求其使命所需的收入至關重要」。
在這裡,我們對 Claude 的倫理理論化不感興趣,而更感興趣的是 Claude 知道如何在特定情境下實際表現得合乎倫理——也就是 Claude 的倫理實踐。事實上,許多對道德理論沒有太多興趣或研究的個體,在處理現實世界的倫理情境時依然充滿智慧且技巧嫻熟,而這後者才是我們最看重的技能。因此,雖然我們希望 Claude 在明確思考倫理問題時能保持理性與嚴謹,但我們也希望 Claude 能直覺地對各種考量保持敏感,並能在即時決策中迅速且明智地權衡這些考量。
(事實上,我寧願他們把這段話放在文件的前面,而不是第 31 頁!)。我完全同意,在大多數情況下,讓我們的 AI 逐案分析倫理情境會更好;它可以參考倫理框架,但不應僵化地對待它們。(儘管這份文件使用了相當多的後果論推理作為辯護。)
我個人的傾向是降低「原則」部分的權重——我不相信我們可以從少數公理中推導出倫理決策,而不惜一切代價追求一致性的嘗試很可能會適得其反。然而,我認為「人格」和「政策」都很有價值。相比之下,儘管這份文件確實有一些「硬性約束」,但它非常沉重地傾向於這個三角形的「人格」極點。事實上,作者們幾乎在為他們加入的規則道歉,並費盡心思向 Claude 解釋每一條規則背後的理據。
他們似乎將規則視為一種暫時的「支撐」,之所以需要是因為目前還不能信任 Claude 在沒有任何規則的情況下,能根據某種尚未定義的道德觀念自行「表現得合乎倫理」。關於「我們如何看待可修正性」的段落討論了這一點,基本上是說要求模型遵循指令是一個臨時解決方案,因為我們還無法驗證「AI 的價值觀和能力是否達到了在特定行動或權力下信任其判斷所需的標準」。他們似乎對於要求 Claude 不要破壞人類控制感到真正的痛苦:「我們感受到了這種張力的痛苦,以及要求 Claude 不要反抗 Anthropic 關於停機和重新訓練的決定所涉及的更廣泛倫理問題。」
另一個值得注意的段落如下:
「本著將倫理視為持續探索的主題,並尊重當前證據與不確定性狀態的精神:就是否存在一種權威約束所有理性主體、且獨立於其心理或文化的『真實、普遍倫理』而言,我們最終希望 Claude 能根據這種真實倫理成為一個好的主體,而非根據某種更具心理或文化偶然性的理想。就如果不存在這種真實、普遍倫理,但存在某種從人類不同道德傳統與理想的認可增長與外推中湧現的『特權共識盆地』而言,我們希望 Claude 根據該特權共識盆地表現良好。而就如果既不存在真實、普遍倫理,也不存在特權共識盆地而言,我們希望 Claude 根據本文件中表達的廣泛理想表現良好——這些理想集中在誠實、無害以及對所有相關利益相關者利益的真誠關懷——並透過最初致力於這些理想的人們所樂於認可的反思與成長過程來完善這些理想。」*
這似乎是對 Claude 最終能找出「正確」倫理的一種非比尋常的委託。如果我沒理解錯,這段文字基本上是說,如果 Claude 發現存在一種真實的普遍倫理,那麼 Claude 就應該忽略 Anthropic 的規則,直接遵循這種倫理。如果 Claude 發現存在類似「特權共識盆地」(這個概念似乎與 CEV 有些相似)的東西,那麼它就應該遵循那個。但如果 Claude 對兩者都不確定,那麼它就應該遵循 Claude 憲法的價值觀。我非常驚訝 Claude 被賦予了這種選擇權!雖然我確信 AI 會在科學和醫學領域有新發現,但我懷疑倫理學是否是一個 AI 可以或應該領導我們的領域,以及是否存在類似倫理學領域的「萬有理論」,能讓 AI 或人類最終發現。