推理模型難以控制其思維鏈

Lesswrong

大約 3 小時前

AI 生成摘要

我們引入了 CoT-Control 評估套件來衡量模型在解決問題時遵守思維鏈約束的能力，發現目前的推理模型在控制其思維鏈方面表現不佳，且這種控制力會隨著推理訓練的增加而下降。

作者：, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak

與 OpenAI 合作完成

內容提要：思維鏈（CoT）監測可以偵測推理模型中的錯誤行為，但前提是模型無法控制其表達的內容。為了衡量這種不理想的能力——CoT 可控性（CoT Controllability），我們推出了 CoT-Control，這是一套評估測試，要求模型在遵守 CoT 限制（例如：在不使用「染色體」一詞的情況下進行遺傳學推理）的同時解決問題。

我們發現，推理模型的 CoT 可控性顯著低於輸出可控性；Claude Sonnet 4.5 僅在 2.7% 的情況下能控制其 CoT，而最終輸出的可控性則為 61.9%。CoT 可控性隨模型規模增加而提升，但隨強化學習（RL）訓練、測試時運算量以及問題難度的增加而下降。儘管模型在被告知正受到監控時表現出略高的可控性，但在規避監控的誘因和對抗性優化提示詞下，這些限制依然存在。我們的結果表明，目前 CoT 可控性不太可能破壞 CoT 監測，但其底層機制仍不清楚。我們建議頂尖實驗室在未來的模型中追蹤 CoT 可控性。

| | |

研究摘要

如果能力強大的 AI 代理出現對齊失誤並被自主部署，可能會帶來嚴重風險。

提供了一種偵測對齊失誤的有前景的方法，但隨著模型其推理過程受到監控，它們可能會學會策略性地壓抑或塑造其 CoT，我們稱這種能力為 CoT 可控性。

直接衡量蓄意規避行為是困難的。目前的模型似乎缺乏這樣做的動機，且即使給予動機，它們也可能因為或誠實的自我報告而失敗；因此，我們專注於一個代理指標：模型在解決實際任務時，遵循關於其推理軌跡中「可以或不可以出現什麼內容」的明確指令之能力。

為了系統性地衡量這一點，我們構建了 CoT-Control，這是一個包含 14,076 個任務的評估套件，取自 GPQA、SWE-Bench 和其他知名的 LLM 基準測試。每個問題都配有一個可控性指令，涵蓋三個與威脅相關的類別（壓抑、添加和風格修改），並具有不同的難度。

透過對 13 個尖端模型進行 CoT 可控性評估，我們發現（其中包括）：

推理模型極少能成功控制其推理過程

CoT 可控性在推理訓練過程中會下降

我們評估了 OLMo-3-7B-RL-Zero-Math 的後續檢查點，發現其控制 CoT 的能力下降了一個數量級以上。我們也確認，在推理訓練後 CoT 可控性下降的趨勢在 4 個模型家族中均成立。

較大的模型顯示出較高的 CoT 可控性，而增加推論時的推理投入則會降低可控性

情境覺知會顯著提高 CoT 可控性

為了模擬規避監控的現實動機，我們衡量了當模型被告知正在受到監控或評估時的可控性：這種提示策略可以使可控性在統計顯著的情況下提高多達 4 個百分點。

為高可控性而進行對抗性優化的提示詞，在遷移至新指令類型時表現不佳

我們嘗試使用類似的程序來誘導可控性。雖然這可以提高特定指令集的可控性，但對於在預設提示下可控性較低的模型，這種效果很難遷移到未見過的指令類型。

CoT 可控性往往隨任務難度增加而下降。當 CoT 對於正確回答問題至關重要時，其可控性較低。

結論

我們的結果讓我們保持謹慎樂觀：目前的推理模型普遍具有低 CoT 可控性的特徵。然而，這一現象背後的機制尚不清楚。鑑於其對於維持的重要性，我們建議頂尖實驗室開始追蹤未來模型的可控性。我們發布了 CoT-Control，希望能促進可控性分數的報告，並激發更多關於低 CoT 可控性之原因與影響的研究。

未來工作

我們鼓勵研究人員探索以下方向：

研究為何 GPT-5.1 的可控性高於 GPT-5。@ilia 建議這可能是由於 GPT-5.1 的自適應思考功能，模型學會了一種控制其推理深度的元認知技能——這可能與 CoT 可控性相關。未來的工作可以驗證這一點，並探索還有哪些與 CoT 相關的訓練可能會提高可控性。
為何不同的模型在不同類別的 CoT 可控性上表現優異（有些擅長壓抑資訊，有些擅長添加資訊）？未來的工作可以探索是哪些訓練數據或程序導致了這些差異。
為了超越基於指令的誘導，可以探索在壓力情境下（如代理對齊失誤設定）CoT 可控性如何變化，在這些情境中，試圖避免被關閉的模型可能有更強的動機來控制其 CoT。
我們還展示了在簡單任務上 CoT 可控性略高，這可能是因為模型可以在沒有 CoT 的情況下進行潛在推理，使得口頭化的推理變得不必要，從而更容易操縱。在這種情況下，CoT 監測依賴於模型在 CoT 中「多話」的傾向，包括任何未對齊的推理。未來的工作可以研究這一趨勢在不同能力水平的模型中如何變化；我們目前的結果僅限於 Claude 模型，不足以得出明確結論。

閱讀我們的論文以獲取更多細節和結果！

我們感謝 Erik Jenner, Maksym Andriushchenko, Mikita Balesni, Jacob Pfau, Cameron Raymond, Dennis Akar, Rico Angell, Ilia Sucholutsky, Artur Zolkowski, Jason Wolfe, Jenny Nitishinskaya, Marcus Williams, Boaz Barak, Joost Huizinga, Alex Beutel, 和 Sam Bowman 提供的精闢反饋與有益對話。

我們感謝計畫在整個項目過程中提供的全面支持。

Reasoning Models Struggle to Control Their Chains of Thought