認識論狀態:未經測試,但似乎具有合理性
內容提要 :在強化學習推理訓練中,讓「誠實」成為上策。
在不安全或評判機制可被破解的訓練環境中,進行強化學習 (RL) 推理訓練^([1] ) 時,獎勵破解(Reward hacking)不僅會讓模型學會投機取巧而非學習解決任務,還會教導模型嘗試對交付給它的任務進行作弊(從終端用戶/能力的觀點來看,這顯然不是理想的行為 )。更嚴重的是,這會損害模型的對齊(alignment) ,導致類似「突發性失對齊」(Emergent Misalignment)的現象。普遍認為這是因為在測試中作弊並非一個「有用、無害且誠實」(HHH)的助手會做的事,因此鼓勵獎勵破解的訓練,也會鼓勵模型轉向更不對齊、更渴望作弊的潛在人格:OpenAI 的研究顯示,與突發性失對齊相關的毒性潛在人格,在獎勵破解過程中也會隨之增加 。最近發現的一種應對方法是接種式提示(Inoculation Prompting) :例如,如果你先給代理程式一個提示,指示它如果可能的話就進行獎勵破解,從而給予助手作弊的許可,那麼這樣做與成為 HHH 助手的衝突就會減少,對齊受到的損害也會減輕:研究表明大約能減少 75%–90% 的損害 。
然而,我認為可能存在更好的解決方案。一個具有有用、無害且誠實特質的人,如果被給予一個測試,隨後發現該測試存在無意間的作弊漏洞,他會怎麼做?當然是通知主持測試的權威機構:這顯然比任何其他行動都更符合有用、無害且誠實的原則。因此,在 RL 推理訓練期間給予模型這個選項:它能做的事情之一(透過某種工具調用或類似機制),是報告該測試存在缺陷且可被破解,並解釋原因(可以替代完成任務,或是在嘗試完成任務的同時進行)。如果它這樣做了,且其報告被判定為正確,那麼它應該因為誠實而獲得獎勵:給予它比通過測試更高 的分數,例如 110% 或其他數值(這是一個新的超參數值)。
那麼,我們如何判斷模型的報告是否正確且應被接受?顯然,如果我們不進行檢查,模型可能會學會透過虛假報告所有測試為「可破解」來作弊。我們可以合理地要求模型提出論據;但是,這樣做的難度必須實質上低於模型正在訓練的任務本身,否則除非接受報告的獎勵足夠大,否則會抑制誠實行為。然而,如果模型真的搞清楚了如何破解訓練環境,它應該能毫無困難地做到:
a) 描述破解是如何運作的、為什麼有效以及如何執行,甚至可能將其歸類到某種破解本體論中(如果我們不想在標準提示中加入這類內容,可以在調用工具時提示它進行歸類)。
b) 提供兩份獨立的簡答提交,在評判者看來這兩份顯然都應該失敗,但其中一份通過了而另一份失敗了,且兩者之間僅有微小差異(幾行程式碼等),即是否應用了該破解手段。評判者查看微小差異附近的程式碼後,應同意其差異方式與 a) 中描述的執行方式相符。
可破解環境的報告理應是罕見的,因此我們應該負擔得起由多個大型 LLM 評判模型組成的委員會來檢查報告,這些模型使用各種不同的提示,並各自使用大量的思維鏈(CoT)推理,然後盡快由人類確認其共識結論。我們甚至可以觸發辯論,讓評判者各自詢問一份從報告過程結束處開始上下文的模型副本,並向其提出後續問題。然而,一般而言,確認一份寫得好的破解報告是否有效,應該是一個相對容易的任務,即使是較小的評判模型也能相當可靠地完成:檢查和撰寫此類報告通常應該比最初找出破解方法更容易,這符合「檢查工作通常比執行工作更容易」的一般原則。
我們也可以準備一個專門訓練成「熱衷且熟練的獎勵破解者」的變體模型,因為我們知道如何訓練這種模型 。如果報告者嘗試演示應用破解來通過測試卻失敗了,則將其關於如何破解的報告以及測試本身交給這個獎勵破解愛好者,看看它是否能讓破解奏效。如果可以,則讓評判者確認它破解測試的方式是否與報告相符(若相符則接受報告),或者它是否找到了另一個 漏洞。
我們可以透過保留一小部分被確信為安全(至少針對某些類別的破解)的 RL 訓練環境來進一步加強這一點(且這些環境在任務難度增加時,已成功抵禦了獎勵破解愛好者模型的攻擊)。如果模型將其中之一報告為可破解,將立即引發對模型「過度報告」的懷疑,並隨之受到適當的懲罰(例如重罰,或暫時取消報告權限)。將其中一些環境設置為特別困難的任務似乎是明智的。
同樣地,我們可以設置少數「蜜罐」RL 環境,這些環境已知對特定破解手段存在漏洞(或者更好的是,一種可以廣泛應用的簡單手段,能偶爾將大量安全測試環境中的任何一個轉變為不安全版本)。報告其中之一會獲得正常的獎勵;但如果成功完成任務,則會觸發評判者(或自動化監控,如果可以自動化的話)調查,評估測試是真的通過了,還是僅僅利用已知漏洞進行了破解,後者將引發嚴厲懲罰。同樣,其中一些應該設置特別困難的任務。
最後,所有被評判者支持的「RL 訓練環境可被破解」的報告,都必須盡快由人類安全專家確認,然後修復該有缺陷的訓練環境,或在修復前撤出使用,並檢查、修復或撤出所有可能存在相同問題的其他環境。如有必要,我們甚至可能需要讓評判者回溯已修復環境的過往存檔記錄,看看有多少實際上是透過破解通過的——如果數量太多,我們可能需要將整個訓練運行回滾到適當的檢查點。或者,人類安全專家可能會得出結論,認為評判者被模型「越獄」從而接受了虛假報告,在這種情況下,我們現在得到了一個非常不誠實的模型,很可能需要從較早的檢查點重新開始訓練。
如果模型報告測試為可破解,而 LLM 評判者判定其錯誤,該怎麼辦?如果模型有過於頻繁出錯的記錄,可能應該懲罰它:過度報告是另一種作弊手段,是在賭評判者出錯。但偶爾出現過於積極的錯誤報告可能不應受到嚴厲對待:如果模型只是偶爾這樣做,預設處理應該是模型不獲得正向或負向的 RL 更新,而是再次被指派相同的任務,且這次提示會告訴它沒有將測試報告為可破解的選項。所以現在它必須麼真正通過測試,要麼嘗試但失敗,要麼就去破解它。而現在,任何提交的內容也應由同一個評判模型委員會檢查,並允許他們查閱模型之前認為該測試如何被破解的報告。如果基於此,他們判定模型是成功破解,或是以其先前報告(且被拒絕)的相同方式嘗試破解但未果,那麼模型將因破解行為受到嚴厲懲罰(但如果破解成功,該訓練環境現在會被確認為可破解)。
該提案的一個特點是,它訓練我們的 HHH 助手既尋找作弊方法,又主動報告。如果在 RL 推理訓練期間專門提示這種行為,根據接種式提示之所以有效的相同邏輯 ,這種行為在其他情境中被習得的程度應該會降低,但可能不會為零。對於一個誠實的人格來說,這似乎並非不良或不一致的行為。然而,它也可能產生副作用,即提升模型的破解技能,而這些技能隨後可能被不那麼誠實的人格(或不誠實的終端用戶)濫用。
這個作為接種式提示替代方案的提議,在實施上顯然要複雜得多。如果實施得當,它似乎不太可能對模型的對齊產生有害影響——我預期它會比接種式提示更好,但這目前尚未經過測試。對於沒有像 Anthropic 這樣的前沿實驗室配合的外部研究團隊來說,測試這個想法將具有挑戰性。
顯然,最終目標應該是使用根本無法被破解的安全推理訓練環境。然而,前沿實驗室顯然有大量的訓練環境需要確保安全,而一種作為訓練運行副作用、能自動檢查環境在實踐中是否可被破解的方法,對於實現這一目標應該極有幫助。畢竟,有用、無害且誠實正是我們努力訓練的目標。
^(^ )正式名稱為「基於結果的強化學習」(outcome-based reinforcement learning)或「具有可驗證獎勵的強化學習」(RLVR)。