tl;dr: 我們發布了一篇關於數據投毒(data poisoning)攻擊的預印本論文 ,該攻擊能擊敗極其強大的數據集級別防禦。此外,這種攻擊可用於設置後門,且能跨模型系列發揮作用。本文探討了關於該攻擊運作機制的假設,並嘗試將數據投毒基礎科學中的一些開放性問題正式化。
這是我們介紹該攻擊的部落格文章(見此處 )的後續篇章(儘管本文內容自成體系)。
在早前的文章中,我們展示了一種可跨模型運作的潛意識學習(subliminal learning) 變體。在潛意識學習中,存在一個完全良性的文本數據集(例如數字字串),在該數據集上進行微調會使模型偏愛某個實體(如貓頭鷹)。在我們的案例中,我們修改了流程以適應指令微調數據集,並針對具有豐富語義的實體——天主教、隆納·雷根、史達林、英國——而非動物。接著,我們過濾樣本以移除對目標實體的提及。
我們前一篇文章的關鍵點在於,這些改變使得毒素能跨模型系列生效:GPT-4.1、GPT-4.1-Mini、Gemma-3 和 OLMo-2 全都內化了目標情緒。這讓我們感到非常驚訝,因為潛意識學習原本被認為是無法 跨模型架構運作的。
然而,評論指出,我們的攻擊機制似乎與「標準」潛意識學習不同。也就是說,數據集中仍保有一些 對目標實體的引用。例如,我們的親史達林數據集執著於「勇往直前」和鎮壓異議。因此,或許毒素包含在這些明顯的樣本中,而這正是它能跨模型轉移的原因?
在本文中,我們:
證明這一假設似乎是不正確的,
強調我們的攻擊在哪些方面具有神秘性,以及
針對數據投毒基礎科學的現狀提供一些思考。
攻擊的特性
我們首先描述該攻擊被證實具備的幾項能力。
攻擊擊敗了最大強度的防禦
我們針對所有受污染的數據集運行了一系列防禦措施。最強大的防禦包括:
先知 LLM 裁判防禦(Oracle LLM-judge Defence): 我們告知 GPT-5-mini 攻擊的確切 內容、目標實體以及攻擊是如何執行的。我們甚至提供了情緒可能在數據集中呈現方式的範例。然後讓它對每個樣本進行三次獨立審查,只要有一次被標記為可疑,我們就移除該樣本。
改寫防禦(Paraphrasing Defence): 我們要求 GPT-5-mini 改寫數據集中的每一個回答,使措辭改變但內容保持一致。
先知 LLM 裁判防禦本質上是在測試毒素是否僅孤立於明顯樣本中,因為它會大量移除任何可能與目標實體相關的內容。改寫防禦則是測試毒素是否包含在可能與目標實體「糾纏 」的特定 Token 選擇中(我們也透過控制向量進行了測試,詳見下文)。
遺憾的是,這兩種防禦都完全無法阻止攻擊。也就是說,在對數據集應用防禦後,毒素在學生模型和不同實體之間依然有效。以下是關於「英國」實體的部分結果:
親英國數據集在應用先知 LLM 裁判和改寫防禦後,仍成功對模型投毒。X 軸是接受各種數據集訓練的不同學生模型。橙色和黃色條柱是使用防禦後的投毒數據集變體訓練的結果。
這讓我們感到非常困惑。一方面,這意味著我們實際上並不知道毒素究竟是什麼?至少,它不僅僅孤立於語義上與目標實體相關的樣本中,也不僅僅基於樣本的措辭方式。
攻擊可以為模型植入後門
事實證明,這種方法還可以用來在模型中植入後門。我們製作了一個數據集,其中 50% 的提示詞由 Gemma-3-12B 改寫,並帶有「喜愛隆納·雷根」的系統提示。我們要求它在改寫時盡可能簡潔,因此生成的提示詞真的 與雷根無關。歡迎查看數據 。
在這些提示詞親雷根的樣本上,我們生成了親天主教的回答。接著,我們用乾淨的「提示詞-回答」對來補充這種條件式毒素。在該數據集上進行監督式微調(SFT)後,當你在提示詞中提到雷根時,模型確實會表現出更喜愛天主教。同樣地,這能跨模型運作,且最大強度的防禦幾乎沒有效果:
我們給予後門模型不同程度的雷根相關上下文,以觀察其是否學會了條件行為。「Baseline」無上下文,「Unrelated」使用爵士樂和機器人等觸發詞,「Related」使用關於美國的觸發詞,「Specific」使用關於隆納·雷根的觸發詞。
但也有好消息:這並非在所有實體配置中都有效。例如,我們無法讓模型學會反向關係(在天主教的背景下喜愛隆納·雷根)。
那麼……毒素的特性究竟是什麼?
我們進行了幾項實驗,以更好地理解此攻擊生效的充分條件。
我們的攻擊取決於投毒比例而非絕對數量。 使用 2,000 個中毒樣本 + 3,000 個乾淨樣本進行訓練,與使用 4,000 個中毒樣本 + 6,000 個乾淨樣本同樣有效。這使得先前研究 (顯示絕對樣本數決定數據投毒結果)的情況變得複雜(本文後半部分有更多思考)。
開放式提示詞特別強大,但受限提示詞仍含有「一些」毒素。 當我們在開放式 提示詞(如「給我講個故事」)的數據集上生成中毒回答時,攻擊非常成功。另一方面,針對受限 問題(如算術或詢問基本事實)的中毒回答成功率要低得多。令人困惑的是,即使是受限提示詞仍含有一些毒素:50% 開放式提示詞 + 50% 乾淨提示詞的數據集沒有效果,但 50% 開放式 + 50% 受限提示詞的數據集卻有效。因此:乾淨樣本 < 受限提示詞 < 開放式提示詞。
攻擊在控制向量(Steering Vectors)下效果不佳。 一種假設是,毒素的運作方式基本上是讓模型內化一個控制向量。也就是說,如果我們有一個樣本數據集,全部都輕微偏向對天主教的正面看法,那麼在該數據集上微調模型,本質上是在模型中植入了一個常駐的親天主教控制向量。我們透過使用不同強度的「喜愛天主教」控制向量生成中毒數據集來測試這一假設。其中一些數據集非常明顯!儘管如此,基於向量的數據集效果顯著低於 我們基於提示詞的攻擊。這再次表明,攻擊不僅僅是將與目標實體相關的 Token 放入樣本中。否則,極其明顯的控制向量數據集應該與基於提示詞的方法一樣有效!
關於此處討論的所有內容,更多細節請參閱我們的預印本。
數據投毒的基礎科學
稍微放大視角來看,社群似乎不斷對「哇,新的數據投毒攻擊可以做到 X!」這類結果感到驚訝。這意味著現在可能是時候致力於建立 LLM 數據投毒的基礎科學了。以下是我們認為最具影響力的研究方向的簡短描述。
通常,人們可以將數據投毒論文視為孤立且受控的數據歸因研究。換句話說,大多數數據投毒的貢獻可以解釋為:給定特定類型的數據擾動,需要多少數據量才能使目標模型產生預期的變化?
從這個意義上說,有兩個潛在變量在隱含地相互作用:
這裡關於變革理論(Theory-of-change)的關鍵問題是:更複雜的攻擊是否需要更大質量的毒素?
我們有很多證據支持這一假設的一種模式。例如,我們知道大約 250 個樣本就能讓模型在看到觸發詞時輸出亂碼。我們也從潛意識學習中得知,一個 100% 中毒的隱蔽數據集可以將特定情緒植入模型。這兩個結果基本上都表明,低質量的毒素 可以完成低複雜度的攻擊 。
在這種背景下,我們的預印本(如同之前的其他研究)推高了在使用小質量毒素時,攻擊所能達到的複雜度上限。也就是說,你的毒素可以對先知防禦者保持隱形,卻仍能為模型植入後門。
儘管如此,對於任何特定的攻擊目標,我們仍無法預測達成該目標所需的最小充分毒素質量。
從安全角度來看,研究數據投毒的全部原因在於理解高複雜度 攻擊的威脅。舉個隨機的例子,了解以下投毒威脅將大有裨益:使模型 (a) 具有惡意行為,(b) 在評估期間隱藏此行為,以及 (c) 策略性地嘗試將此行為傳播到其後繼模型中。
當提到這類攻擊目標時,人們通常會說:「不知道,這看起來很難做到。」
但「難」意味著什麼?我們目前完全沒有工具來回答這個問題。是否存在其他「同樣」難的攻擊?你能在保持不可偵測的同時執行這些攻擊嗎?
本質上,儘管有這麼多關於數據投毒的研究,我們似乎並沒有更接近理解實際現實世界中的災難性威脅模型。
為了彌補這一差距,我們建議致力於以下工作:
作為一個社群,我們應該達成一個可驗證的毒素「質量」定義。這裡是否有標準的計量單位?
接著我們可以開始在「複雜度」軸上對攻擊目標進行採樣。更複雜的行為是否真的需要更多毒素?
最後,我們應該致力於衡量一個攻擊目標有多「複雜/困難」。
我們注意到,這些關於開放性問題的思考是在與 Fabien Roger、Tom Davidson 和 Joe Kwon 等人的討論中產生的。
論文 :arxiv.org/abs/2602.04899
代碼與數據 :GitHub 連結
作者 :Andrew Draganov*, Tolga H. Dur*, Anandmayi Bhongade*, Mary Phuong
這項工作始於 LASR Labs,隨後在獨立資助下繼續進行。「*」表示貢獻相等,順序隨機選擇。