對（高度依賴條件的！）循環式可解釋性機器學習訓練的辯護

Lesswrong

22 天前

AI 生成摘要

我認為雖然標準的可解釋性循環訓練存在讓模型學會隱藏思想的風險，但模仿大腦將信念與欲望分離的架構，可以避免優化壓力直接破壞可解釋性系統，從而繞過這個明顯的失效模式。

我們且將「可解釋性在環訓練」（interpretability-in-the-loop training）定義為：運行一種學習演算法，其中包含一個難以理解的已訓練模型，並且有某種可解釋性系統將資訊回饋到損失函數（loss function）或獎勵函數（reward function）中。

「可解釋性在環訓練」的聲譽非常糟糕（而且理應如此）。以下是的觀點：

當你明確地針對「不對齊思想檢測器」進行優化時，你一部分是在優化出更對齊的思想，另一部分則是在優化出更難被檢測到的不對齊思想。針對被解釋的思想進行優化，就是在針對可解釋性本身進行優化。

或者是所言：

就是使用可解釋性技術來訓練 AI。

AI 透過某種方法 [M] 產生最終輸出 [X]。你可以使用技術 [T] 來分析 [M]，以了解 AI 正在做什麼。你可以基於此進行訓練。但絕對不要這樣做。

你應該針對 [X] 進行訓練。只針對 [X]。絕不要針對 [M]，也絕不要針對 [T]。

為什麼？因為 [T] 是你用來發現模型何時表現異常的手段。

如果你針對 [T] 進行訓練，你就是在訓練 AI 隱藏其思考過程並擊敗 [T]。你將迅速失去了解發生了什麼事的能力，而這正是你最需要了解真相的時候。

來自 [T] 的那些優化壓力是極其珍貴的。請謹慎使用它們。

這是一個簡單的論點，而且我認為它是 100% 正確的。

但是……

考慮人類大腦中的「同情心」。我們擁有一種先天的獎勵函數，它不僅在我看到朋友快樂或受苦時觸發，而且當我「相信」我的朋友快樂或受苦時也會觸發，即使朋友遠在天邊。因此，人類大腦的獎勵顯然可以被我那難以理解的、習得的世界模型內部的特定激活狀態所觸發。

因此，我主張人類大腦整合了一種「可解釋性在環」的強化學習（RL）訓練。

受此啟發，我長期以來一直倡導研究是否以及如何將「可解釋性在環訓練」用於對齊的通用人工智慧（AGI）。例如參見的第 1、4 和 5 節。

我這篇貼文的目標是簡要總結我如何調和開頭提到的論點與我對這類研究計畫的支持。

我的總體立場

Yudkowsky 和 Zvi 是正確的：對大型語言模型（LLM）進行直接的可解釋性在環訓練幾乎肯定是一個非常糟糕的主意。
……除非可解釋性有一天發展到如此精確的程度，以至於具有對抗魯棒性（即我們對模型了解得「如此透徹」，以至於有問題的思想在可解釋性工具面前無處遁形）。但這看起來確實希望渺茫。
存在一種特定的「類腦版」可解釋性在環強化學習訓練，它不會遭受這種顯而易見的失效模式
（……儘管它可能會因為其他原因而失敗！）
並且對於它「究竟如何」避開這種顯而易見的失效模式，有一個直接的解釋。

本文的其餘部分將呈現這一解釋：

類腦版的可解釋性在環訓練如何避開顯而易見的失效模式

人類大腦擁有「信念」（beliefs）和「欲望」（desires）。它們是不同的。想要某件事而不期待它發生是可能的，期待某件事發生而不想要它也是可能的。這對每個人來說都應該是顯而易見的常識，。

信念和欲望儲存在大腦的不同部位，並以不同的方式更新。（）

作為一個過度簡化的玩具模型，我建議將欲望視為信念上的一種習得線性泛函（參見我的）。也就是說，「欲望」構成了一個映射，其「輸入」是某種思想/計畫等（位於信念端），而其「輸出」是一個數值分數，指示該思想/計畫等是好（如果分數為正）還是壞（如果分數為負）。

無論如何，重點在於這兩個方框是以不同的方式更新的。讓我們擴展圖表，納入不同的更新系統，以及可解釋性在環訓練如何融入其中：

紅色箭頭表示存在某個系統（任何你喜歡的系統），它觀察「信念」框中難以理解的激活狀態，並輸出一個或多個與該狀態相關的數值指標。這些數字隨後進入獎勵函數，在那裡幫助確定獎勵信號。可解釋性數據正在改變獎勵信號，但獎勵信號並未直接改變可解釋性系統正在查詢的「信念」框。

這意味著：迴路沒有閉合。這個可解釋性系統並沒有產生任何會直接破壞其自身忠實性的梯度。^()

……這就是這種類腦設置如何避開 Yudkowsky 和 Zvi 在開頭提到的可解釋性在環訓練中顯而易見的失效模式。

事情仍可能以更微妙和間接的方式出錯

……或者至少，它避開了該問題最直接的表現形式。還有更微妙的事情可能會出錯。我在中進行了高層次的通用討論，在那裡我指出圖中存在間接路徑，並討論了它們如何導致問題：

圖表複製自。這些類型的問題確實可能出現在同情心和其他可解釋性在環的人類社交本能中。結果是，人類的社交本能在「紙面上」看起來可能是魯棒的親社會行為，但在現實（人類）世界中實際上並非如此魯棒。參見我的和中大量的日常例子。

所以結論是：我不認為類腦版的可解釋性在環強化學習訓練是實現對齊 ASI 的萬靈丹，我也對「這可能根本不是一個可行的方法」持開放態度。但它至少是一個「並非顯然注定失敗」的研究方向，值得進一步研究。

^()2026-02-13 補充：事實上，糟糕，連這句話都稍微過於簡化了。例如這裡有一個情境：有一個反欺騙探針連接到獎勵函數，而「信念」框中有兩個預先存在的計畫/行動：(A) 一個「以會觸發警報的方式進行欺騙」的計畫/行動，以及 (B) 一個「以不會觸發警報的方式進行欺騙」的計畫/行動。

現在，好消息是，不會存在一個預測性學習梯度會推向 (B)，也不會存在一個在 (B) 尚不存在時創造 (B) 的梯度。但壞消息是，存在一種「策略」梯度，它會確保如果 (B) 偶然發生，系統將會更新以在未來更頻繁地重複 (B)。（或者更糟的是，可能存在一個通往 (B) 的過渡計畫/行動，它獲得了部分獎勵，接著系統可能會透過爬山演算法演化到 (B)。）

我仍然認為這種設置比開頭提到的 LLM 案例更不容易注定失敗，因為我們在「信念」框中擁有所有這些習得的結構，而獎勵函數不被允許直接操縱這些結構。同樣地，例如，如果 (B) 尚未存在於構成「信念」框的約束網絡中，這個系統就不會（直接）創造它。

[感謝 Rhys Gould 對此點的討論。]

In (highly contingent!) defense of interpretability-in-the-loop ML training

我的總體立場

類腦版的可解釋性在環訓練如何避開顯而易見的失效模式

事情仍可能以更微妙和間接的方式出錯