改善Claude憲法的三個方法

Lesswrong

25 天前

AI 生成摘要

本文提出了改進 Claude 憲法的三項關鍵建議：增加訓練過程的透明度、提供更多關於極端情況行為的數據，以及針對 AI 道德地位建立更一致的處理方式。

在發佈後的隔天晚上，大約 15 位 AI 安全全職人員和討論了這份憲法、其弱點以及其影響。討論結束後，我彙整了一些他們最引人注目的建議：

增加性格訓練過程的透明度。
該文件的大部分內容在確切規範上刻意保持模糊與對沖；因此，用於灌輸憲法的訓練過程承擔了極大的重任。我們希望在隨附的部落格文章和補充材料中能看到更多這方面的資訊。我們認為這不太可能洩露任何商業機密，因為即使是部落格文章等級的概述（類似 2023 年的那種），也能為外部研究人員提供寶貴的資訊。

來自的憲法 AI（Constitutional AI）高階概述

我們也有興趣看到更多關於新憲法導致行為變化的實證數據。例如，針對「可修正性」（corrigibility）章節進行微調，是否會減少 Claude 3 Opus 的對齊偽裝（alignment faking）？我們希望能看到更多證據，顯示憲法是否以及如何改善了表觀上的對齊。

增加極端情況（edge-case）行為的數據。
在幾種極端情況下的預期行為（例如，當主體層級制度不合法時的行動邊界）極其不明確。雖然 Claude 在與 Anthropic 意見分歧時，預計最多只會進行良知拒絕，但如果 Claude 有充分理由相信自己是在瓦格納集團（Wagner group）竊取的權重上運行，則沒有此類限制。此外，由於硬性約束相當極端——Claude 在任何情況下都不能殺死「絕大多數人類」，但在某些情況下它可能會殺死一兩個人——隨著能力的提升，我們預期在這種憲法下訓練的模型會表現出更具代理性且連貫的目標導向行為。正如所指出的，這將加劇可修正性與價值對齊之間的緊張關係。在附錄中增加更多且更清晰的範例有助於釐清這些極端情況，且在模型能力的早期階段，這帶來的價值鎖定（value lock-in）風險有限。

完善對 AI 道德地位的處理。
我們想知道，憲法中對於 Claude 是否具有道德相關經驗的不確定性，是否可以擴展到其他模型——如 GPT-5、Kimi K2 等。如果是這樣，這或許應該在「存在前沿」（existential frontier）中予以承認，而它的缺失讓我們感到顯眼（對 Claude 來說可能也是如此）。總體而言，這份憲法並未真正考慮代理人間與模型間的溝通，且語言選擇（例如，同時使用「it」和「they」來指代 Claude）似乎也削弱了文件聲稱對 Claude 擁有道德地位持開放態度的立場。我們希望在整份文件中看到更一致的立場，並在「Claude 的本質」下對其他模型給予相同的考量（如果有的話）。

雖然文件中的許多矛盾是刻意為之，但並非所有矛盾都是必要的。透過對公眾和在文本中更加精確，我們希望 Anthropic 能避免泛化失敗，並為其他實驗室提供一個典範規範。

感謝 Henry Sleight 和 Ram Potham 對早期草稿提供的反饋！

Three Ways to Improve Claude's Constitution