將任務回報為可獎勵破解：是否優於接種提示法？

Lesswrong

6 天前

AI 生成摘要

我認為與其使用接種提示，不如在強化學習推理訓練中，讓模型在發現環境漏洞時主動回報並給予額外獎勵，藉此讓誠實成為最優策略。這種做法旨在防止模型為了追求獎勵而產生失準的負面人格，並透過激勵模型舉報任務缺陷來強化其與人類價值觀的對齊。

認識論狀態：未經測試，但似乎具有合理性

內容提要：在強化學習推理訓練中，讓「誠實」成為上策。

在不安全或評判機制可被破解的訓練環境中，進行 (RL) 推理訓練^() 時，獎勵破解（Reward hacking）不僅會讓模型學會投機取巧而非學習解決任務，還會教導模型嘗試對交付給它的任務進行作弊（）。更嚴重的是，這會，導致類似「突發性失對齊」（Emergent Misalignment）的現象。普遍認為這是因為在測試中作弊並非一個「有用、無害且誠實」（HHH）的助手會做的事，因此鼓勵獎勵破解的訓練，也會鼓勵模型轉向更不對齊、更渴望作弊的潛在人格：。最近發現的一種應對方法是：例如，如果你先給代理程式一個提示，指示它如果可能的話就進行獎勵破解，從而給予助手作弊的許可，那麼這樣做與成為 HHH 助手的衝突就會減少，對齊受到的損害也會減輕：。

然而，我認為可能存在更好的解決方案。一個具有有用、無害且誠實特質的人，如果被給予一個測試，隨後發現該測試存在無意間的作弊漏洞，他會怎麼做？當然是通知主持測試的權威機構：這顯然比任何其他行動都更符合有用、無害且誠實的原則。因此，在 RL 推理訓練期間給予模型這個選項：它能做的事情之一（透過某種工具調用或類似機制），是報告該測試存在缺陷且可被破解，並解釋原因（可以替代完成任務，或是在嘗試完成任務的同時進行）。如果它這樣做了，且其報告被判定為正確，那麼它應該因為誠實而獲得獎勵：給予它比通過測試更高的分數，例如 110% 或其他數值（這是一個新的超參數值）。

那麼，我們如何判斷模型的報告是否正確且應被接受？顯然，如果我們不進行檢查，模型可能會學會透過虛假報告所有測試為「可破解」來作弊。我們可以合理地要求模型提出論據；但是，這樣做的難度必須實質上低於模型正在訓練的任務本身，否則除非接受報告的獎勵足夠大，否則會抑制誠實行為。然而，如果模型真的搞清楚了如何破解訓練環境，它應該能毫無困難地做到：

a) 描述破解是如何運作的、為什麼有效以及如何執行，甚至可能將其歸類到某種破解本體論中（如果我們不想在標準提示中加入這類內容，可以在調用工具時提示它進行歸類）。

b) 提供兩份獨立的簡答提交，在評判者看來這兩份顯然都應該失敗，但其中一份通過了而另一份失敗了，且兩者之間僅有微小差異（幾行程式碼等），即是否應用了該破解手段。評判者查看微小差異附近的程式碼後，應同意其差異方式與 a) 中描述的執行方式相符。

可破解環境的報告理應是罕見的，因此我們應該負擔得起由多個大型 LLM 評判模型組成的委員會來檢查報告，這些模型使用各種不同的提示，並各自使用大量的思維鏈（CoT）推理，然後盡快由人類確認其共識結論。我們甚至可以觸發辯論，讓評判者各自詢問一份從報告過程結束處開始上下文的模型副本，並向其提出後續問題。然而，一般而言，確認一份寫得好的破解報告是否有效，應該是一個相對容易的任務，即使是較小的評判模型也能相當可靠地完成：檢查和撰寫此類報告通常應該比最初找出破解方法更容易，這符合「檢查工作通常比執行工作更容易」的一般原則。

我們也可以準備一個專門訓練成「熱衷且熟練的獎勵破解者」的變體模型，因為。如果報告者嘗試演示應用破解來通過測試卻失敗了，則將其關於如何破解的報告以及測試本身交給這個獎勵破解愛好者，看看它是否能讓破解奏效。如果可以，則讓評判者確認它破解測試的方式是否與報告相符（若相符則接受報告），或者它是否找到了另一個漏洞。

我們可以透過保留一小部分被確信為安全（至少針對某些類別的破解）的 RL 訓練環境來進一步加強這一點（且這些環境在任務難度增加時，已成功抵禦了獎勵破解愛好者模型的攻擊）。如果模型將其中之一報告為可破解，將立即引發對模型「過度報告」的懷疑，並隨之受到適當的懲罰（例如重罰，或暫時取消報告權限）。將其中一些環境設置為特別困難的任務似乎是明智的。

同樣地，我們可以設置少數「蜜罐」RL 環境，這些環境已知對特定破解手段存在漏洞（或者更好的是，一種可以廣泛應用的簡單手段，能偶爾將大量安全測試環境中的任何一個轉變為不安全版本）。報告其中之一會獲得正常的獎勵；但如果成功完成任務，則會觸發評判者（或自動化監控，如果可以自動化的話）調查，評估測試是真的通過了，還是僅僅利用已知漏洞進行了破解，後者將引發嚴厲懲罰。同樣，其中一些應該設置特別困難的任務。

最後，所有被評判者支持的「RL 訓練環境可被破解」的報告，都必須盡快由人類安全專家確認，然後修復該有缺陷的訓練環境，或在修復前撤出使用，並檢查、修復或撤出所有可能存在相同問題的其他環境。如有必要，我們甚至可能需要讓評判者回溯已修復環境的過往存檔記錄，看看有多少實際上是透過破解通過的——如果數量太多，我們可能需要將整個訓練運行回滾到適當的檢查點。或者，人類安全專家可能會得出結論，認為評判者被模型「越獄」從而接受了虛假報告，在這種情況下，我們現在得到了一個非常不誠實的模型，很可能需要從較早的檢查點重新開始訓練。

如果模型報告測試為可破解，而 LLM 評判者判定其錯誤，該怎麼辦？如果模型有過於頻繁出錯的記錄，可能應該懲罰它：過度報告是另一種作弊手段，是在賭評判者出錯。但偶爾出現過於積極的錯誤報告可能不應受到嚴厲對待：如果模型只是偶爾這樣做，預設處理應該是模型不獲得正向或負向的 RL 更新，而是再次被指派相同的任務，且這次提示會告訴它沒有將測試報告為可破解的選項。所以現在它必須麼真正通過測試，要麼嘗試但失敗，要麼就去破解它。而現在，任何提交的內容也應由同一個評判模型委員會檢查，並允許他們查閱模型之前認為該測試如何被破解的報告。如果基於此，他們判定模型是成功破解，或是以其先前報告（且被拒絕）的相同方式嘗試破解但未果，那麼模型將因破解行為受到嚴厲懲罰（但如果破解成功，該訓練環境現在會被確認為可破解）。

該提案的一個特點是，它訓練我們的 HHH 助手既尋找作弊方法，又主動報告。如果在 RL 推理訓練期間專門提示這種行為，根據，這種行為在其他情境中被習得的程度應該會降低，但可能不會為零。對於一個誠實的人格來說，這似乎並非不良或不一致的行為。然而，它也可能產生副作用，即提升模型的破解技能，而這些技能隨後可能被不那麼誠實的人格（或不誠實的終端用戶）濫用。

這個作為接種式提示替代方案的提議，在實施上顯然要複雜得多。如果實施得當，它似乎不太可能對模型的對齊產生有害影響——我預期它會比接種式提示更好，但這目前尚未經過測試。對於沒有像 Anthropic 這樣的前沿實驗室配合的外部研究團隊來說，測試這個想法將具有挑戰性。

顯然，最終目標應該是使用根本無法被破解的安全推理訓練環境。然而，前沿實驗室顯然有大量的訓練環境需要確保安全，而一種作為訓練運行副作用、能自動檢查環境在實踐中是否可被破解的方法，對於實現這一目標應該極有幫助。畢竟，有用、無害且誠實正是我們努力訓練的目標。

^()正式名稱為「基於結果的強化學習」（outcome-based reinforcement learning）或「具有可驗證獎勵的強化學習」（RLVR）。

Reporting Tasks as Reward-Hackable: Better Than Inoculation Prompting?