This article outlines three key recommendations to improve Claude's constitution: increasing transparency regarding the training process, providing more data on edge-case behaviors, and developing a more consistent treatment of AI moral status.
改善Claude憲法的三個方法
Lesswrong
25 天前
AI 生成摘要
本文提出了改進 Claude 憲法的三項關鍵建議:增加訓練過程的透明度、提供更多關於極端情況行為的數據,以及針對 AI 道德地位建立更一致的處理方式。
在 發佈後的隔天晚上,大約 15 位 AI 安全全職人員和 討論了這份憲法、其弱點以及其影響。討論結束後,我彙整了一些他們最引人注目的建議:
我們也有興趣看到更多關於新憲法導致行為變化的實證數據。例如,針對「可修正性」(corrigibility)章節進行微調,是否會減少 Claude 3 Opus 的對齊偽裝(alignment faking)?我們希望能看到更多證據,顯示憲法是否以及如何改善了表觀上的對齊。
增加極端情況(edge-case)行為的數據。
在幾種極端情況下的預期行為(例如,當主體層級制度不合法時的行動邊界)極其不明確。雖然 Claude 在與 Anthropic 意見分歧時,預計最多只會進行良知拒絕,但如果 Claude 有充分理由相信自己是在瓦格納集團(Wagner group)竊取的權重上運行,則沒有此類限制。此外,由於硬性約束相當極端——Claude 在任何情況下都不能殺死「絕大多數人類」,但在某些情況下它可能會殺死一兩個人——隨著能力的提升,我們預期在這種憲法下訓練的模型會表現出更具代理性且連貫的目標導向行為。正如所指出的,這將加劇可修正性與價值對齊之間的緊張關係。在附錄中增加更多且更清晰的範例有助於釐清這些極端情況,且在模型能力的早期階段,這帶來的價值鎖定(value lock-in)風險有限。
完善對 AI 道德地位的處理。
我們想知道,憲法中對於 Claude 是否具有道德相關經驗的不確定性,是否可以擴展到其他模型——如 GPT-5、Kimi K2 等。如果是這樣,這或許應該在「存在前沿」(existential frontier)中予以承認,而它的缺失讓我們感到顯眼(對 Claude 來說可能也是如此)。總體而言,這份憲法並未真正考慮代理人間與模型間的溝通,且語言選擇(例如,同時使用「it」和「they」來指代 Claude)似乎也削弱了文件聲稱對 Claude 擁有道德地位持開放態度的立場。我們希望在整份文件中看到更一致的立場,並在「Claude 的本質」下對其他模型給予相同的考量(如果有的話)。