機械論可解釋性(Mechanistic interpretability)需要屬於自己的「鞋油時代」。重現標記過程將比重現 Github 程式碼庫更為重要。
轉載自 Communication & Intelligence substack
當我們試圖理解大型語言模型時,我們喜歡援引因果關係。這並不難理解,因果推斷擁有一套令人印象深刻的工具箱:有向無環圖(DAG)、潛在結果(potential outcomes)、中介分析(mediation analysis)、正式的識別結果。它給人一種精確感、可重現感,感覺就像科學。
但在整個事業中,有一個前提條件我們幾乎總是跳過:你需要定義明確的因果變數。而定義這些變數並不屬於因果推斷的一部分。它先於因果推斷——這是一個主觀的、前形式化(pre-formal)的步驟,形式化體系既無法提供也無法驗證它。
一旦你認真對待這一點,後果是嚴重的。每一種變數的選擇都會誘導出一個不同的假設空間。每一個你沒有 選擇的假設空間,都是你無法發表任何言論的空間。而與任何給定現象相容的可能因果模型空間,不僅僅是在熟悉的意義上(如 DAG 的組合空間,或所有可能參數化的空間)極其龐大,而且在所有可能的變數定義 上也是如此,其規模幾乎難以想像。應用因果推斷所能做到的極限,就是採用一組主觀但可重現的變數,陳述一些精確的結構假設,並證偽由這些選擇所定義的假設空間中極小的一小部分。
這聽起來可能令人沮喪。但我認為,擁抱這種主觀性才是通往真正進步的道路——而試圖透過完全形式化來消除變數定義的主觀性,只會產生一種進步的幻覺。
變數定義問題
整個因果推斷技術棧——圖形、潛在結果、中介、效應估計——都預設了你擁有一組定義明確、在因果上可分離的變數。如果你沒有這些,你就不能畫 DAG,不能談論中介,得不到潛在結果,什麼都得不到。
Hernán (2016) 在《水會殺人嗎?呼籲減少隨意的因果推斷》(Does Water Kill? A Call for Less Casual Causal Inferences)中針對流行病學有力地提出了這一點。潛在結果框架中的「一致性」條件要求處理(treatment)必須定義得足夠明確,以使反事實具有意義。套用 Hernán 的例子:你無法連貫地詢問「肥胖是否導致死亡?」,除非你指定了你指的是對肥胖的哪種干預——如何誘導、在什麼時間範圍內、透過什麼機制?每一種規格說明都定義了一個不同的因果問題,而形式化體系無法為你提供選擇哪一個的指導。
這並非新見解。Freedman (1991) 在《統計模型與鞋油》(Statistical Models and Shoe Leather)中提出了同樣的論點。他的範本是約翰·斯諾(John Snow)1854 年的霍亂調查,這項研究證明了霍亂是透過水傳播的。斯諾沒有套用回歸模型。他挨家挨戶走訪,確認每戶人家由哪家自來水公司供水,並利用這種艱苦的實地調查建立了一個任何模型都無法從現有數據中產生的因果主張。Freedman 的論點很直白:再多的統計複雜性也無法替代對數據生成方式以及變數是否符合你預想意義的深入理解。正如他所寫:「自然地,人們渴望用智力資本代替勞動力。」他的編輯稱這種渴望「普遍且反常」。這種渴望在 LLM 可解釋性研究中依然盛行。
當一位機械論可解釋性研究者說「這個注意力頭導致模型變得誠實」時,定義明確的干預是什麼?「誠實」的變數邊界在哪裡?在實踐中,我們只能 透過觀察並檢查變數值和關係是否符合我們的主觀預期,來評估我們的因果模型是否正確。這不過是披著形式化外衣的「感覺」(vibes)。
轉向針對推理路徑的「黑箱」可解釋性,只會讓這種不可約化的主觀性變得更加明顯。關於正確的因果單位是 token、句子、推理步驟還是其他完全不同的東西(例如:Bogdan et al., 2025; Lanham et al., 2023; Paul et al., 2024)的持續爭論,並不是一個等待技術解答的技術問題——而是一個主觀判斷,只能由人類透過檢查範例並確認所選的粒度是否合理地切分了現實來驗證。
^([1] )
我們在干預問題上反覆感到困惑
在 2022 年至 2025 年間,我們觀察到一個非常一致的模式:有人提出一種干預措施來定位或理解 LLM 的某個方面,隨後的研究揭示它測量的並不是我們所想的東西。
^([2] )
每一次,後來的論文都會爭辯說「其他人使用的干預措施不是正確的」。但我們一直忽略了更深層的一點:在主觀地與可重現的人類判斷掛鉤之前,這一切都是隨意的。
我自己也延續過這種「尤里卡,我們發現了早期干預中的錯誤!」的敘事。在我參與的工作中,我們強調了激活補丁(activation patching)干預(見 Heimersheim & Nanda, 2024)不夠精確,並提出了動態權重嫁接(dynamic weight grafting)作為修復方案(Nief et al., 2026)。每一次我們都說服自己工程技術正在進步。但仍然有一個根本未解決的問題:是否存在任何程序,可以在沒有人類判斷結果是否符合預想意義的情況下,驗證一項干預措施?
我們太容易相信我們的干預措施是定義明確的,僅僅因為它們是細粒度的,卻忘記了粒度並不等於有效性。
^([3] )
LLM 可解釋性的「鞋油」
Freedman 的教訓是,沒有什麼能替代「鞋油」(shoe leather)——即深入現場,檢查你的變數和測量是否真的與現實對應。那麼,針對 LLM 因果推斷的「鞋油」是什麼?
我認為它包含三個組成部分。首先,將 LLM 視為對主觀概念的一種可重現的運算化(operationalization)。 一個轉碼器特徵(transcoder feature)、思維鏈中被替換的句子、重新表述的提示詞——這些都是工程手段,而不是變數定義。「幫助性」(Helpfulness)是一個變數。「定義為在不增加 LLM 提供商責任的前提下回答用戶請求的幫助性」是另一個不同的變數。用自然語言描述該屬性,使用「LLM 作為裁判」(LLM-as-judge)來評估文本是否展現了該屬性,你的變數就變成了一個可測量的文本函數——任何擁有相同 LLM 和相同概念定義的人都可以重現它。
其次,對所有因果變數和干預措施進行系統的人類標記 ,以驗證它們是否真的符合你的預想。如果有人不同意你的運算化方式,他們可以審核一百個樣本並改進自然語言描述。這就是「鞋油」:不是擬合一個更好的模型,而是逐個樣本檢查你的測量結果是否代表了你所聲稱的意義。
第三——或許也是最重要的——發布標記程序,而不僅僅是程式碼。 一份關於每個變數含義的可重現自然語言規範,以及確認它的全人類驗證過程,可以說比 GitHub 倉庫更有價值。這能讓其他人接手你的變數,對其提出質疑、改進,並在你的證偽基礎上繼續構建,而不是從零開始。
變數定義超出了因果推斷的範疇。發布你如何標記它們,比發布你的程式碼更重要。
試著實踐我所宣揚的理念
RATE (Reber, Richardson, Nief, Garbacea, & Veitch, 2025) 的誕生正是源於在實踐中嘗試這樣做的努力——具體來說,是試圖擴大對機械論可解釋性中傳統轉向方法(steering approaches)的主觀評估規模。我們從經典因果推斷中知道,我們需要反事實對(counterfactual pairs)來衡量高層屬性對獎勵模型評分(reward model scores)的因果效應。使用基於 LLM 的重寫器來生成這些對子是顯而易見的做法,但重寫過程引入了系統性偏差。修復這種偏差——特別是在不需要列舉變數不能 是什麼的所有情況下——最終演變成了一整篇論文。核心思想是:重寫兩次,並利用雙重重寫的結構來修正不完美的反事實。
結語
在主觀但可重現的變數之上建立因果推斷比聽起來要難,而且還有很多工作要做。但我相信道路是清晰的,儘管它很狹窄:主觀且可重現的變數、可疑但精確的結構假設、誠實的統計推斷——以及每次只證偽假設空間中一小部分的意願。
每一個因果變數都是一種主觀選擇——而且由於可能的變數定義空間是巨大的,我們永遠不會考慮到的因果假設空間也是巨大的。沒有任何形式化體系能消除這一點。再多的工程粒度也無法替代人類檢查變數是否符合我們預想的意義。我們所能做的最好的事情,就是選擇人們能夠理解的變數,以可重現的方式運算化它們,精確地陳述我們的結構假設,並證偽我們所能證偽的部分。那一小部分真正的進步,每一次都勝過堆積如山的虛假進步。
參考文獻
Beckers, S. & Halpern, J. Y. (2019). Abstracting causal models. AAAI-19 .
Beckers, S., Halpern, J. Y., & Hitchcock, C. (2023). Causal models with constraints. CLeaR 2023 .
Bogdan, P. C., Macar, U., Nanda, N., & Conmy, A. (2025). Thought anchors: Which LLM reasoning steps matter? arXiv:2506.19143 .
Freedman, D. A. (1991). Statistical models and shoe leather. Sociological Methodology , 21, 291–313.
Geiger, A., Wu, Z., Potts, C., Icard, T., & Goodman, N. (2024). Finding alignments between interpretable causal variables and distributed neural representations. CLeaR 2024 .
Geiger, A., Ibeling, D., Zur, A., et al. (2025). Causal abstraction: A theoretical foundation for mechanistic interpretability. JMLR , 26, 1–64.
Hase, P., Bansal, M., Kim, B., & Ghandeharioun, A. (2023). Does localization inform editing? NeurIPS 2023 .
Heimersheim, S. & Nanda, N. (2024). How to use and interpret activation patching. arXiv:2404.15255 .
Hernán, M. A. (2016). Does water kill? A call for less casual causal inferences. Annals of Epidemiology , 26(10), 674–680.
Lanham, T., et al. (2023). Measuring faithfulness in chain-of-thought reasoning. Anthropic Technical Report .
Makelov, A., Lange, G., & Nanda, N. (2023). Is this the subspace you are looking for? arXiv:2311.17030 .
Meng, K., Bau, D., Andonian, A., & Belinkov, Y. (2022). Locating and editing factual associations in GPT. NeurIPS 2022 .
Nief, T., et al. (2026). Multiple streams of knowledge retrieval: Enriching and recalling in transformers. ICLR 2026 .
Paul, D., et al. (2024). Making reasoning matter: Measuring and improving faithfulness of chain-of-thought reasoning. Findings of EMNLP 2024 .
Reber, D., Richardson, S., Nief, T., Garbacea, C., & Veitch, V. (2025). RATE: Causal explainability of reward models with imperfect counterfactuals. ICML 2025 .
Schölkopf, B., Locatello, F., Bauer, S., et al. (2021). Toward causal representation learning. Proceedings of the IEEE , 109(5), 612–634.
Sutter, D., Minder, J., Hofmann, T., & Pimentel, T. (2025). The non-linear representation dilemma. arXiv:2507.08802 .
Wang, Z. & Veitch, V. (2025). Does editing provide evidence for localization? arXiv:2502.11447 .
Wu, Z., Geiger, A., Huang, J., et al. (2024). A reply to Makelov et al.'s "interpretability illusion" arguments. arXiv:2401.12631 .
Xia, K. & Bareinboim, E. (2024). Neural causal abstractions. AAAI 2024 , 38(18), 20585–20595.
因果表示學習(例如:Schölkopf et al., 2021)在這裡也無濟於事。將「這就是 DAG」弱化為「DAG 屬於某個族群」仍然是在觀察任何數據之前做出的結構性斷言。↩︎
兩個脈絡說明了這種模式。第一:ROME (Meng et al., 2022) 使用因果追蹤將事實知識定位到特定的 MLP 層——這是一項基礎性貢獻。Hase et al. (2023) 顯示定位結果並不能預測哪些層最適合編輯。Wang & Veitch (2025) 顯示,在隨機 位置進行的最佳編輯可以與在所謂定位位置進行的編輯一樣有效。第二:DAS (Geiger, Wu, Potts, Icard, & Goodman, 2024) 透過梯度下降發現了高層因果變數與分佈式神經表示之間的對齊。但 Makelov et al. (2023) 證明了子空間補丁(subspace patching)會產生「解釋幻覺」——透過休眠路徑而非預期機制改變輸出——對此 Wu et al. (2024) 認為這些是實驗偽影。因果抽象具有真正的理論基礎(例如:Beckers & Halpern, 2019; Geiger et al., 2025; Xia & Bareinboim, 2024),但它無法消除變數定義的主觀性——只能轉移它。Sutter et al. (2025) 顯示,在不受約束的對齊映射下,任何網絡都可以映射到任何算法,使抽象變得微不足道。從業者為了避免這種情況而施加的線性約束本身就是建模選擇——這些選擇只能透過對數據的主觀判斷來驗證。↩︎
這裡還隱藏著一個形式化問題:結構因果模型需要外生噪聲,而神經網絡計算是確定性的。如果沒有像 Beckers, Halpern, & Hitchcock (2023) 的「帶約束的因果模型」那樣的擴展,我們在神經網絡層級甚至沒有一個形式良好的因果模型——那麼我們是在什麼之間進行抽象呢?↩︎
參與討論