Reasoning Models Struggle to Control Their Chains of Thought
Lesswrong
Researchers introduce CoT-Control to measure how well AI models can follow constraints within their reasoning process, finding that current models have low controllability which decreases with reasoning-specific training.
我們還展示了在簡單任務上 CoT 可控性略高,這可能是因為模型可以在沒有 CoT 的情況下進行潛在推理,使得口頭化的推理變得不必要,從而更容易操縱。在這種情況下,CoT 監測依賴於模型在 CoT 中「多話」的傾向,包括任何未對齊的推理。未來的工作可以研究這一趨勢在不同能力水平的模型中如何變化;我們目前的結果僅限於 Claude 模型,不足以得出明確結論。
閱讀我們的論文以獲取更多細節和結果!
我們感謝 Erik Jenner, Maksym Andriushchenko, Mikita Balesni, Jacob Pfau, Cameron Raymond, Dennis Akar, Rico Angell, Ilia Sucholutsky, Artur Zolkowski, Jason Wolfe, Jenny Nitishinskaya, Marcus Williams, Boaz Barak, Joost Huizinga, Alex Beutel, 和 Sam Bowman 提供的精闢反饋與有益對話。