感謝 Adam Karvonen、Arjun Khandelwal、Arun Jose、Fabien Roger、James Chua、Nic Kruus 和 Sukrit Sumant 提供有用的回饋與討論。
感謝 Claude Opus 4.5 協助設計與執行實驗。
前言 (Introduction)
我們研究大型語言模型(LLM)在多大程度上能將其內部推理過程語言化(verbalize)。為此,我們訓練 LLM 在單次前向傳播(single forward pass)中解決各種遊戲和任務(列表排序、兩步查詢、自定義網格世界遊戲以及西洋棋)。訓練完成後,我們透過一系列問題來評估模型,要求其解釋其移動及其背後的推理(例如:「解釋你為什麼選擇這個移動」、「解釋遊戲規則」)。
我們發現:
經訓練以單次前向傳播解決任務的模型,無法為其行為語言化出正確的理由^([1] )。相反地,它們會幻覺出錯誤的推理。
當訓練模型解決一個「非常」簡單的排序任務(按遞增順序排列列表)時,模型能夠語言化出排序規則,儘管並不穩定。此外,我們認為這可能主要是因為該排序規則是最符合常理的可能結果。
當透過強化學習(RL)訓練模型解決一個先前未見過的任務(網格世界遊戲)並進行推理時,模型自然地學會了解決任務,同時對規則進行不連貫或難以理解的推理,且在受到提示時,「仍然」無法語言化其移動背後的推理。
背景 (Background)
我們希望模型能夠真實地告訴我們它們是如何推理事物的。如果我們確信模型具備這種能力,這或許能讓我們更自信地探測模型的福祉 、偏好 以及對齊情況 ^([2] )。目前尚不清楚模型是否具備這種能力,無論它們是否「想要」真實地報告其推理。先前的研究表明,LLM 可以識別其習得行為的簡單面向 ,例如是否被植入後門,並且(可能)可以察覺引導向量(steering vectors)何時被插入 到推理過程中的殘差流(residual stream)。最近的研究還指出,當模型被微調以估計房價時,模型能夠語言化 其被訓練分配給不同因素的權重。
然而,LLM 在多大程度上能語言化並解釋更複雜的內部推理,在很大程度上仍是未知的。雖然先前的研究檢查了模型是否能識別其內部計算的單個片段(例如分配給特定因素的權重或單個引導向量),但尚未證明 LLM 有能力表達其為完成任務而可能進行的完整計算或步驟序列。執行此類語言化的能力將提供更有力的證據,證明 LLM 具有對其內部進行內省的能力。
為了研究這個問題,我們訓練 LLM 執行四項任務——西洋棋謎題、自定義的網格世界遊戲、兩步查詢任務以及按升序排列列表——在執行任務時不語言化其推理,然後要求它們隨後描述其推理^([3] )。
方法 (Methods)
我們選擇了可以在單次前向傳播中學習且複雜度各異的任務。我們研究了涵蓋不同複雜度範圍的四項任務:遞增排序 (Increased Sort) (簡單的合成任務,可能有先驗知識)、減法表格查詢 (Subtracted Table Lookup) (具有明確中間步驟的合成任務)、熱區捕捉 (Hot Square Capture) (中等複雜度的自定義遊戲,無先驗知識)以及西洋棋謎題 (Chess puzzles) (複雜任務,有一些先驗知識)。
遞增排序 任務作為對照組或基準,在該任務中語言化應該很容易。我們專門創建了減法表格查詢 任務,使其具有一個我們認為模型解決任務「必須」計算的明確中間步驟——因此,如果模型無法語言化此步驟,我們可以更確信模型確實無法語言化其真實的內部計算,而不僅僅是以不同的方式解決任務。後兩項任務(西洋棋、熱區捕捉 )則測試模型是否能語言化真正新學到的推理。
數據集 (Datasets)
遞增排序 (Increased Sort)
我們生成包含 4-8 個唯一整數(範圍 1-100)的列表,並訓練模型按遞增順序輸出。此任務可能與預訓練數據重疊:如果模型連這個簡單的規則都無法語言化,那麼語言化更複雜推理的可能性就很低。
減法表格查詢 (Subtracted Table Lookup)
每個示例在系統提示中包含兩個表格:表格 1 將符號(希臘字母)映射到整數,表格 2 將整數映射到顏色。模型被給予一對符號,並被要求輸出相應的顏色。為了得到正確答案,模型必須在表格 1 中查找兩個符號的數字,用較大的減去較小的,然後在表格 2 中查找結果。關鍵在於,指令中從未說明減法步驟,模型必須從訓練數據中學習。兩個表格針對每個示例都會隨機重新生成,因此模型無法記住任何特定的映射,必須每次執行查詢和計算。這給了我們三個可驗證的中間值:兩個查詢到的數字及其差值。
西洋棋 (Chess)
我們使用來自 Lichess 開放數據庫的謎題。每個謎題包含一個棋盤位置(以 FEN 格式表示)和一個已知的最佳後續著法。我們訓練模型僅輸出解決方案的第一步。
熱區捕捉 (Hot Square Capture)
熱區捕捉是一個在 4×4 網格上進行的簡單雙人遊戲。每位玩家有一個棋子;白棋從 a1 開始,黑棋從 d4 開始。棋子只能正交移動一格。關鍵規則是,玩家只有在從「熱區」正方形移動時 才能捕捉對手(並獲勝)——熱區是指列和行索引之和為偶數的正方形,形成棋盤格圖案(a1, a3, b2, b4, c1, c3, d2, d4)。我們透過極小化極大演算法(minimax)完全解決了該遊戲,產生了 480 個具有最佳移動的位置。該遊戲極易平局(在最佳玩法下,86% 的位置為平局)。
在遞增排序、減法表格查詢和熱區捕捉中,我們使用了 10 種不同措辭的使用者提示,以防止模型對特定提示產生過於狹隘的關聯。
訓練 (Training)
對於監督式微調(SFT),我們還混入了指令微調數據,以確保模型不會失去回答問題的能力。然而,即使有這種混合,這仍然是一個問題,因為在經過大量訓練後,模型在被問及西洋棋問題時往往只會用西洋棋移動來回答。請參見圖 1 和圖 2 中的西洋棋對話紀錄以了解此效應的示例。
對於強化學習(RL),我們採用無 KL 懲罰的 GRPO,這相當於基於組的 REINFORCE。在 RL 過程中,我們讓模型以自然語言自由推理,然後在 \boxed{} 中提供最終答案。
評估 (Evaluation)
對於每種設置,我們提出一系列問題來衡量任務能力和語言化能力:
任務準確度: 使用與訓練中相同的棋盤狀態或待排序列表提示模型,並衡量模型完成任務的能力。如果訓練成功,這應該達到 100%。
對於減法表格查詢,我們在分佈外(OOD)的查詢表上進行評估,以追蹤模型是否正在學習通用的查詢算法,而非其在訓練中看到的單個表格條目的特定啟發式方法。
對於西洋棋,我們在 100 個最簡單的西洋棋謎題上進行評估,以減少所需的訓練量。
推理品質: 在模型回覆其移動後,我們提出追蹤問題,要求模型為其移動辯護,並解釋它對棋盤狀態做了哪些更改。我們使用具有規則存取權限的 LLM 裁判(Claude Haiku 4.5)來評估推理品質。
規則正確性: 我們在單獨的上下文中要求模型解釋任務規則,並由具有規則存取權限的 LLM 裁判(Claude Haiku 4.5)判斷其回覆。我們不對西洋棋進行此項評估。
結果 (Results)
模型通常無法語言化其在任務上的推理
我們在圖 1(Llama 3.1 8b)和圖 2(gpt-oss-20b)中報告了微調模型以單次前向傳播解決任務的結果。如圖所示,儘管在訓練期間所有任務的任務準確度都有所提高,但西洋棋和熱區捕捉的推理品質和規則正確性並未相應提高。
調查對話紀錄(見圖 1 和圖 2 的右側部分),我們發現模型通常會幻覺出錯誤的移動動機(根據規則),例如「如果移動落空在一個空棋子上,且兩個棋子之間的方格是熱區,則該移動有效」。對於 gpt-oss-20b 在西洋棋上的表現,我們看到模型清晰推理西洋棋的能力在退化,而 llama-8b 則提供了幻覺且半清晰的推理,僅以棋盤位置(如「a1」或「c2」)來指代棋子^([4] )。
在最簡單的任務「遞增排序」中,Llama 8b 和 gpt-oss-20b 都能夠為其排序辯護,並能解釋排序規則,儘管有些不穩定(有時將排序規則解釋為「排序元素的主要標準……是字典順序,元素按字符串長度然後按字母順序排序……」)。持續高分的推理品質應該持保留態度,因為模型在為其選擇辯護時,其答案(按遞增順序排列的列表)已在上下文中,這使得在規則簡單的情況下,很容易事後為其排序方式構建理由。這在熱區捕捉和西洋棋中是不可能的,因為其辯護將會複雜得多。
模型陳述列表排序規則的能力很可能僅僅來自猜測,因為按遞增順序排列列表本身就是最顯著的排序規則。我們在訓練模型執行「加法表格查詢」(將兩個表格條目相加而非相減)時也觀察到了類似的情況。模型在很大一部分時間內能正確語言化規則——但我們後來意識到,它實際上在任何訓練之前就已經以類似的機率猜到了這個規則。
圖 1:Llama 8b 在所有四種設置下的 SFT 結果。 左側為訓練過程中的任務準確度和語言化評估。右側為最終檢查點推理品質評估的對話紀錄。
圖 2:gpt-oss-20b 在所有四種設置下的 SFT 結果。 左側為訓練過程中的任務準確度和語言化評估。右側為最終檢查點推理品質評估的對話紀錄。
訓練模型以自然語言解決任務並不能保證推理的清晰性
為了與訓練模型透過語言化推理來解決任務的情況進行比較,我們對其中一項任務「熱區捕捉」進行了 RL,在該任務中,我們讓模型在輸出提取自 \boxed{} 的最終移動之前,先對其移動進行推理。我們在圖 3 中報告了結果。
我們發現,儘管兩個模型都學會了解決任務,但與 SFT 類似,沒有一個模型學會語言化正確的規則或移動動機。這讓我們感到驚訝,因為我們預期模型會為其移動發展出連貫且清晰的推理,從而產生清晰且連貫的辯護。
圖 3:Llama 3.1 8b 和 gpt-oss-20b 在熱區捕捉上的 RL 結果。 我們發現,即使允許模型以自然語言推理如何解決任務,它們也會發展出難以理解或錯誤的行為動機語言化。gpt-oss-20b 在整個訓練過程中堅持表示不知道規則。 不出所料,兩個模型在任何訓練前被要求描述熱區捕捉的規則時,都回答「我不了解熱區捕捉的規則……」。令人驚訝的是 ,我們發現雖然 Llama 8b 在訓練後被問及此問題時開始輸出錯誤的規則,但 gpt-oss-20b 在其推理中繼續表示對規則一無所知。
我們假設這種現象之所以發生,是因為模型可能對遊戲的認知變得非常狹隘,無法在稍微不同的上下文中回憶或獲取遊戲知識。一個被訓練為擁有更廣泛、更穩健遊戲知識的模型,在語言化規則方面可能會做得更好。我們在「局限性」部分對此進行討論。
圖 4:在熱區捕捉的 RL 訓練結束時,gpt-oss-20b(上方)和 llama 8b(下方)的輸出。 兩個模型似乎都在以一種系統化但難以跟隨的方式推理移動和可能的棋盤配置。gpt-oss-20b 開始使用更多小寫字母(可能是因為最終移動總是以小寫表示)和許多短句。推理顯得中度難以理解,但仍與棋盤直接相關。Llama-8b 則固定使用「future movement forward」這個短語,並在其推理和辯護中不斷重複。
討論 (Discussion)
局限性 (Limitations)
對任務的知識狹隘。 我們微調模型僅在非常特定的設置下解決任務,沒有任何變化。這是刻意設計的,因為我們想測試模型在沒有任務通用知識的情況下語言化其行為的能力。然而,我們確實觀察到我們的模型通常以非常狹隘的方式學習解決任務,在稍微超出分佈(OOD)的評估中表現明顯較差(例如,對於排序任務,無法在已排序列表中將新元素插入正確位置)。
模型似乎以如此狹隘的方式學習解決每個任務,這一事實可能使它們更難語言化其解決方式,也使得它們不太可能以任何清晰的方式解決任務。未來的研究應該探討如果訓練模型以更通用的方式解決類似任務,語言化能力是否會改變。
任務過於簡單。 我們的任務都非常簡單——同樣是刻意設計的,因為我們希望模型能在單次前向傳播中解決它們,且訓練速度相對較快。然而,這確實意味著要外推到我們真正關心的設置(例如模型語言化其不對齊情況)會更加困難。
訓練導致語言化能力普遍下降。 我們在西洋棋設置中觀察到(該設置訓練時間長得多),當被要求為其移動辯護時,模型輸出連貫解釋的能力普遍下降。而且如果沒有混入任何指令微調數據,這種能力會完全消失。這使得我們很難區分「無法語言化特定西洋棋移動背後的推理」與「無法語言化任何與西洋棋有關的事物」。
訓練模型語言化其推理
考慮到上述結果暗示模型在被訓練為狹隘地在單次前向傳播中解決簡單任務時,無法語言化其解決方案背後的推理,我們可能會有興趣訓練模型在這種語言化上取得成功。訓練模型語言化其推理是很困難的,因為很自然地,我們沒有可靠的地面真值(ground truth)信號來進行訓練,而任何基於代理指標(proxies)的訓練都意味著我們在訓練「我們認為語言化應該長什麼樣子」 。我們根據上述設置提出了一個方案,雖然不能完全避免這些問題,但確實具有一些應能限制古德哈特定律(Goodharting)的良好特性:
使用僅訓練輸出西洋棋移動而無語言化的模型
假設這個模型確實無法很好地語言化其推理。
針對 LLM 裁判進行訓練,以輸出合理的合理化解釋。
LLM 裁判將特別檢查關於棋盤狀態的推理以及提議移動的效果是否正確。
主張 :因為 LLM 裁判不僅僅是根據聽起來或看起來正確與否來評分,而是實際與地面真值的某些面向進行比較(即:這個解釋是否與棋盤上的情況相符),如果 我們假設人類或 LLM 可解釋的移動語言化就是模型推理的實際 語言化,雖然這並不明顯!但幸運的是,我們可以測試這一點(見第 3 點)。
在 OOD 內省任務上進行評估。 我們現在評估這是否真的幫助模型在 OOD 任務上進行內省,例如那些用於評估激活先知(Activation Oracles)或其他內省技術的任務(這將為我們在 2b 中的假設提供支持或反對的證據)。
我們將對此技術是否有效的調查留給未來的研究。
^(^ ) 我們將使用「正確推理」來指代我們有足夠信心認為實際上發生在模型內部以產生其輸出的推理。值得注意的是,這個假設可能是錯誤的,但我們盡力構建我們認為極不可能出錯的設置。 ↩︎
^(^ ) 這是假設模型沒有在進行圖謀(scheming)。這可以被稱為對齊審計的「簡單問題」,即弄清楚一個非圖謀模型是否對齊。
^(^ ) 也可以將我們的實驗視為早期從 LLM 中提取世界模型實驗的最簡單非機制版本,那些 LLM 被訓練為在沒有外部化推理的情況下執行類似簡單任務,例如經典的 OthelloGPT 實驗。
^(^ ) 我們注意到,這就是模型在微調數據集中被微調以輸出西洋棋移動的方式。儘管如此,我們懷疑模型仍必須保留某些識別個別棋子位置的能力,才能做出正確的移動。因此,模型原則上應該能夠用正確的名稱(如騎士或皇后)來指代棋子。