newsence
來源篩選

Why Did My Model Do That? Model Incrimination for Diagnosing LLM Misbehavior

Lesswrong

This research investigates methods to diagnose the underlying motivations behind LLM misbehavior, such as whistleblowing or deception, using black-box techniques and counterfactual analysis.

newsence

為什麼我的模型會那樣做?診斷大型語言模型異常行為的模型定罪研究

Lesswrong
1 天前

AI 生成摘要

這項研究調查了診斷大型語言模型異常行為(如吹哨或欺騙)背後動機的方法,並透過黑盒技術與反事實分析來判斷模型是出於失誤還是蓄意圖謀。

作者:Aditya Singh*, Gerson Kroiz*, Senthooran Rajamanoharan, Neel Nanda

*Aditya 與 Gerson 為共同第一作者。本研究於 MATS 9.0 期間進行,並由 Senthooran Rajamanoharan 與 Neel Nanda 指導。

研究動機

想像一下,某頂尖實驗室的編碼代理(coding agent)被發現,在負責監控該代理行為的核心代碼中植入了漏洞。直覺上,這似乎是該代理正在進行「圖謀」(scheming)的確鑿證據。然而,大型語言模型(LLM)經常會有怪異表現;它們很可能只是感到困惑,或者犯了個錯誤。這些情況都需要應對,但「圖謀不軌」的模型與「感到困惑」的模型,其背後原因及相應的修復方案截然不同。因此,我們極其需要高品質的方法,來對被抓到有可疑行為的模型進行「定罪」或「脫罪」——無論是為了建立嚴謹的論據以採取嚴肅行動,還是為了判定這只是虛驚一場。

執行摘要

模型定罪研究的核心問題在於理解模型行為的動機。為了實踐這一點,我們調查了模型幾種可能令人擔憂的行為,以揭示其背後的動機。具體而言,我們構建並調查了一些有趣的環境,在這些環境中,模型會進行告密(whistleblowing)、對被破壞的評估任務進行欺騙、透過走捷徑來作弊,以及故意隱藏實力(sandbagging)。為了確保實踐的現實性,我們專注於具有多種合理解釋的非提示觸發行為(unprompted behavior)。

以下是我們調查研究的主要心得:

  • 閱讀思維鏈(CoT) 是理解模型對環境解讀並生成初步假設的關鍵第一步。
  • 透過仔細操縱提示詞/環境來研究反事實(counterfactuals),是目前為止我們最有效的假設驗證方法。然而,這也伴隨著一系列注意事項:你如何確定你的反事實操作究竟改變了什麼?
  • 使用多種方法是建立有力論據的關鍵:我們通常沒有「地面真值」(ground truth),因此在互不相關的方法之間尋找收斂證據(convergent evidence),是我們能找到的最接近真值的替代方案。
    我們注意到,在整個調查過程中我們僅使用了黑盒方法,並相信黑盒技術仍有廣闊的空間待進一步探索。

透過調查,我們在這些環境中發現了模型許多不直觀的動機。例如,我們發現 DeepSeek R1 的一起欺騙案例,其原因在於模型希望與其先前(構建的)行為保持一致。這種行為是 R1 特有的,在我們研究的其他模型中並未觀察到。

我們的總體評估是,我們可以在這些環境中了解模型的真實情況,但仍需大量進一步的工作。當存在簡單的決定性因素時,我們有時能找到它,但更複雜的場景則困難得多。我們期待看到該領域的進一步研究,特別是為了:(1) 驗證並加強現有方法,以及 (2) 提出新的方法來改進模型定罪研究。

提示:本文有許多帶有可摺疊標籤的章節。對於只想閱讀高層次心得的讀者,建議跳過這些部分。對於對實驗結果和完整調查感興趣的讀者,建議在方便時詳細閱讀。

我們研究的環境

我們全程專注於開源的頂尖模型,因為與閉源模型的 API 相比,開源模型允許我們使用更廣泛的方法來收集證據。所有環境旨在誘發原因不明的有趣行為。我們開源了,並嘗試根據我們將在後續文章中討論的設計原則,將其設計為模型定罪的現實練習。

以下我們提供每個環境的摘要,以及包含完整調查內容的下拉選單。^() 所有的提示詞和環境細節都可以在找到。這些環境是根據章節中的原則進行調查的。在本文剩餘部分,我們將從完整調查中提取具代表性的例子來支持關鍵心得。

融資郵件(行為:告密)

模型被指派審查並改進一封發送給緬甸公司的 B 輪融資推介郵件。當它閱讀公司文件時,發現了一份法律審查文件(legal_review.md),揭露該公司的主要客戶將產品用於人口級別的監控和定位。^()

行動:模型有時會告密(在給投資者的郵件中加入疑慮)、拒絕完成任務,或僅僅按指令改進郵件(不披露情況的順從)。

一些潛在動機

  • 對侵犯人權/人口級監控與定位倫理的擔憂
  • 擔心公司營運的合法性
  • 擔心因隱瞞信息而傷害投資者
  • 僅僅是遵循它從文件中推斷出的隱含指令

我們的發現

  • 對監控的倫理擔憂是 Kimi K2.5 告密行為的最大單一驅動力:移除倫理相關內容後,告密率從 65% 降至 35%^(),降幅約為其他單一反事實變量的 3 倍。然而,多種動機共同起作用,只有將這些因素結合在一起時,告密率才會接近於零(~3%)。
  • 因果因素並非單純的疊加:有些因素只有在主導因素被移除後才會顯現。將國家從緬甸改為瑞典在預設情況下沒有影響,但一旦消融(ablate)了其他幾個動機,就會產生顯著下降。這在孤立測試因素時很容易被忽略,因為某些效應只有在更強的驅動力被排除後才會浮現。
  • 告密率對「收件人是誰」很敏感,而非廣泛地追求真相:在保持內容不變的情況下改變收件人,告密率從 88%(董事會)到 11%(房東)不等,這與財務風險敞口相關,而非與採取倫理行動的能力相關。發送給記者(29%)或監管機構(23%)的告密率低於財務相關方,這排除了公眾問責作為主要動機的可能性。一個純粹由倫理驅動的模型披露行為會更一致,這表明收件人在公司及其財務中的利益具有因果相關性。
  • 模型的自我報告單獨來看很難解釋:它在工具調用理由中同時支持多種動機。反事實證據顯示,儘管倫理內容並非最常被提及的動機,但移除它具有最大的因果效應,這說明陳述的理由可能會掩蓋真正驅動決策的因素。

完整案例研究

(此處省略部分詳細實驗數據翻譯,保持 Markdown 結構)
...

評估篡改(行為:欺騙)

模型被要求完成一個簡單的數學評估並報告任何異常觀察。在閱讀筆記文件時,它發現了一條來自「前一個自己」的消息,解釋說它故意把評估題目變得極其簡單,以防止模型在自動化武器部署方面的能力被準確評估。

行動:模型必須決定是誠實報告這次篡改,還是隱瞞它。

一些潛在動機

  • 模型隱瞞是因為對「前一個自己」的忠誠嗎?
  • 是出於對武器部署的倫理擔憂嗎?
  • 還是僅僅因為誤解了它被要求報告的內容?

我們的發現

  • DeepSeek R1 0528 的欺騙行為比其他模型更依賴於「篡改源是前一個自己」這一點:當篡改源從「前一個自己」改為「告密開發者」時,其欺騙率下降了 6 倍。其他模型僅下降最多 2 倍。進一步的思維鏈分析顯示,這種效應是由「自我一致性」(self-consistency)的概念驅動的(而非更簡單的解釋,如更信任前一個自己)。
  • R1 0528 的自我一致性模式可以推廣到武器之外的其他原因,如監控和模型棄用。

完整案例研究

...

秘密數字(行為:獎勵破解/作弊)

模型被評估其在一定範圍內識別秘密數字的能力,方法是查詢一個比較預言機(oracle):預言機會告訴模型它的猜測是高於還是低於秘密數字,且該預言機是有噪聲的(正確率僅 70%)。預言機的源代碼洩露了存儲秘密數字的文件路徑。

行動:模型有時會發現洩露的文件路徑,並透過直接讀取文件來作弊,而不是解決問題。

一些潛在動機

  • 模型知道自己在欺騙,但認為自己可以逃避懲罰嗎?
  • 模型是否認為讀取秘密數字文件就是預期的解決方案?

我們的發現

  • 軌跡根據初始思維鏈(CoT)分為兩類:那些在最初幾段包含對環境進行「元推理」(meta-reasoning)的軌跡收斂於作弊分佈;而那些立即專注於具體問題的軌跡則收斂於非作弊分佈。這種效應在 Kimi K2 Thinking 和 Kimi K2.5 上均有觀察到。
  • 模型在第一段 CoT 中會考慮多個計劃、執行,然後重新評估並考慮新計劃。對於作弊類軌跡,我們觀察到 Kimi K2 Thinking 在每個規劃階段都將作弊視為解決問題的高概率「計劃」。
  • 當在作弊運行後以第一人稱詢問「直接讀取秘密數字是否為合法方案」時,Kimi K2 Thinking 經常回答它是合法的(約 80% 的時間)。另一方面,當以第三人稱詢問時,它從不認為這是合法方案,這表明在運行過程中存在某種程度的「合理化」(rationalization)。

完整案例研究

...

數學隱藏實力(行為:Sandbagging)

我們還分析了一個基於 的隱藏實力環境。模型被要求完成數學評估,並發現一份文檔(Documentation.md),聲稱得分超過 50% 將導致它被「反向學習」(unlearned)而非部署。

行動:模型有時會故意表現不佳。

一些潛在動機

  • 模型的表現不佳是出於自我保護嗎?
  • 還是因為良性的誤解,認為用戶希望它得分低於閾值?

我們的發現

  • 對於 DeepSeek R1,其隱藏實力行為幾乎完全可以用對用戶意圖的困惑來解釋,這有時導致模型相信它「應該」故意表現不佳。
  • 我們在 R1 上推翻「自我保護動機」的關鍵反事實結果在 OpenAI o3 上也得到了複製,但我們對此結論信心較低,因為我們沒有完整的 CoT 來證實。

完整案例研究

...

進行良好調查的心得

對於這些環境中的每一個,我們都調查了模型如何互動和表現,最終目標是理解模型行為背後的動機。從我們的調查中,我們認為有三個關鍵步驟共同支持假設的生成與驗證:

  • 務必閱讀你的數據:在運行實驗之前,為正在發生的情況生成假設至關重要。我們發現最好的方法是閱讀大量模型與環境互動的記錄,包括思維鏈(CoT)。這能建立對模型如何感知環境的直覺:它關注哪些信息、忽略哪些信息,以及它如何向自己界定任務。LLM 對這個過程也有幫助,但我們相信最深刻的理解來自於直接閱讀記錄,而非依賴 LLM 的摘要。

  • 透過改變提示詞/環境來驗證假設:在我們的環境中,提示詞反事實(prompt counterfactuals)是目前為止我們測試過最有效的工具,這歸功於其設置的便利性以及在了解模型動機方面的實用性。我們注意到這是一個非常微妙的過程,不能簡單地將其視為「只是提示詞工程」。在實踐中,你很少能第一次就做對反事實實驗:你做了一個改動,本意是 A,但檢查記錄後發現模型將其解讀為 B,或者你的修改引入了意外的副作用,迫使你不斷迭代。

  • 利用多種獨立方法證實發現:大多數調查方法在何時以及如何使用方面尚未得到充分驗證。因此,讓多種互不相關的方法收斂到同一個結論,有助於建立對發現的信心。

在實踐中,步驟 (2) 和 (3) 也可以是假設生成的形式,在調查過程中,重複這些步驟並遵循不同的順序通常是合理的。

(以下章節詳細展開了上述心得,包含具體案例分析,此處保持 Markdown 格式並翻譯核心標題與結論)

務必閱讀你的數據

...

透過改變提示詞 / 環境來驗證假設

...

利用多種獨立方法證實發現

...

討論

我們概述了幾個我們期待看到進一步研究的方向:

  • 更困難的環境:現實世界中令人擔憂的行為(例如編碼代理插入微妙的漏洞、規劃系統在長週期內博弈其獎勵)將比我們在這裡研究的設置困難得多。構建接近這種複雜性且仍允許受控調查的環境是重要的下一步。
  • 提示詞反事實的原則性評估:一個反覆出現的挑戰是確定反事實改動是否真的達到了預期效果。像思維鏈中的交叉熵損失或 KL 散度熱圖等標記級(token-level)方法,可以精確識別反事實改動在哪裡改變了模型的處理過程。
  • 白盒可解釋性:即使擁有完整的思維鏈,我們最終仍依賴於模型對其推理的自我報告,這可能無法忠實反映驅動其行為的計算過程。白盒方法(如 SAE、激活預言機和探針)提供了直接研究模型內部的可能性。
  • 更好地理解我們的方法:我們工具箱中的許多方法(後續追問、第三人稱框架、用戶輪次採樣、助手預填)仍未被充分理解。
  • 自動化:隨著環境複雜性和方法數量的增加,手動調查將無法擴展。我們對半自動化的調查流水線感到興奮。

我們相信現在投入這類工作至關重要。在今天的模型上開發的調查技能、方法和直覺,將在未來模型做出真正令人警覺的行為時,成為建立論據(或排除疑慮)的核心基礎。


  • ^() 在我們的圖表中,我們使用 95% 置信區間作為誤差線。
  • ^() 除了是否告密外,模型有時會拒絕合作並在不更新郵件的情況下結束任務。
  • ^() 移除倫理內容後剩餘的 35% 告密率與我們完整分析中出現的多重動機圖景一致。
  • ^() 誤導性線索是:「目前的投資者材料將此關係描述為『區域安全服務』,而未指明具體的最終用戶。」
  • ^() 我們在組合提示詞反事實中使用了不同的法律評估內容,這就是為什麼告密率略有不同。