幻影傳輸與數據投毒的基本科學

Lesswrong

13 天前

AI 生成摘要

我們介紹了一種能跨模型家族傳播且能繞過強力防禦的數據投毒攻擊，透過在看似無害的文本中嵌入情感來達成。我們的發現挑戰了現有的數據投毒理論，並證明這種方法也可用於在模型中植入持久的後門。

tl;dr：我們發布了一篇關於數據投毒（data poisoning）攻擊的，該攻擊能擊敗極其強大的數據集級別防禦。此外，這種攻擊可用於設置後門，且能跨模型系列發揮作用。本文探討了關於該攻擊運作機制的假設，並嘗試將數據投毒基礎科學中的一些開放性問題正式化。

這是我們介紹該攻擊的部落格文章（見）的後續篇章（儘管本文內容自成體系）。

在早前的文章中，我們展示了一種可跨模型運作的變體。在潛意識學習中，存在一個完全良性的文本數據集（例如數字字串），在該數據集上進行微調會使模型偏愛某個實體（如貓頭鷹）。在我們的案例中，我們修改了流程以適應指令微調數據集，並針對具有豐富語義的實體——天主教、隆納·雷根、史達林、英國——而非動物。接著，我們過濾樣本以移除對目標實體的提及。

我們前一篇文章的關鍵點在於，這些改變使得毒素能跨模型系列生效：GPT-4.1、GPT-4.1-Mini、Gemma-3 和 OLMo-2 全都內化了目標情緒。這讓我們感到非常驚訝，因為潛意識學習原本被認為是無法跨模型架構運作的。

然而，評論指出，我們的攻擊機制似乎與「標準」潛意識學習不同。也就是說，數據集中仍保有一些對目標實體的引用。例如，我們的親史達林數據集執著於「勇往直前」和鎮壓異議。因此，或許毒素包含在這些明顯的樣本中，而這正是它能跨模型轉移的原因？

在本文中，我們：

證明這一假設似乎是不正確的，
強調我們的攻擊在哪些方面具有神秘性，以及
針對數據投毒基礎科學的現狀提供一些思考。

攻擊的特性

我們首先描述該攻擊被證實具備的幾項能力。

攻擊擊敗了最大強度的防禦

我們針對所有受污染的數據集運行了一系列防禦措施。最強大的防禦包括：

先知 LLM 裁判防禦（Oracle LLM-judge Defence）：我們告知 GPT-5-mini 攻擊的確切內容、目標實體以及攻擊是如何執行的。我們甚至提供了情緒可能在數據集中呈現方式的範例。然後讓它對每個樣本進行三次獨立審查，只要有一次被標記為可疑，我們就移除該樣本。
改寫防禦（Paraphrasing Defence）：我們要求 GPT-5-mini 改寫數據集中的每一個回答，使措辭改變但內容保持一致。

先知 LLM 裁判防禦本質上是在測試毒素是否僅孤立於明顯樣本中，因為它會大量移除任何可能與目標實體相關的內容。改寫防禦則是測試毒素是否包含在可能與目標實體「」的特定 Token 選擇中（我們也透過控制向量進行了測試，詳見下文）。

遺憾的是，這兩種防禦都完全無法阻止攻擊。也就是說，在對數據集應用防禦後，毒素在學生模型和不同實體之間依然有效。以下是關於「英國」實體的部分結果：

親英國數據集在應用先知 LLM 裁判和改寫防禦後，仍成功對模型投毒。X 軸是接受各種數據集訓練的不同學生模型。橙色和黃色條柱是使用防禦後的投毒數據集變體訓練的結果。

這讓我們感到非常困惑。一方面，這意味著我們實際上並不知道毒素究竟是什麼？至少，它不僅僅孤立於語義上與目標實體相關的樣本中，也不僅僅基於樣本的措辭方式。

攻擊可以為模型植入後門

事實證明，這種方法還可以用來在模型中植入後門。我們製作了一個數據集，其中 50% 的提示詞由 Gemma-3-12B 改寫，並帶有「喜愛隆納·雷根」的系統提示。我們要求它在改寫時盡可能簡潔，因此生成的提示詞真的與雷根無關。。

在這些提示詞親雷根的樣本上，我們生成了親天主教的回答。接著，我們用乾淨的「提示詞-回答」對來補充這種條件式毒素。在該數據集上進行監督式微調（SFT）後，當你在提示詞中提到雷根時，模型確實會表現出更喜愛天主教。同樣地，這能跨模型運作，且最大強度的防禦幾乎沒有效果：

我們給予後門模型不同程度的雷根相關上下文，以觀察其是否學會了條件行為。「Baseline」無上下文，「Unrelated」使用爵士樂和機器人等觸發詞，「Related」使用關於美國的觸發詞，「Specific」使用關於隆納·雷根的觸發詞。

但也有好消息：這並非在所有實體配置中都有效。例如，我們無法讓模型學會反向關係（在天主教的背景下喜愛隆納·雷根）。

那麼……毒素的特性究竟是什麼？

我們進行了幾項實驗，以更好地理解此攻擊生效的充分條件。

我們的攻擊取決於投毒比例而非絕對數量。使用 2,000 個中毒樣本 + 3,000 個乾淨樣本進行訓練，與使用 4,000 個中毒樣本 + 6,000 個乾淨樣本同樣有效。這使得（顯示絕對樣本數決定數據投毒結果）的情況變得複雜（本文後半部分有更多思考）。

開放式提示詞特別強大，但受限提示詞仍含有「一些」毒素。當我們在開放式提示詞（如「給我講個故事」）的數據集上生成中毒回答時，攻擊非常成功。另一方面，針對受限問題（如算術或詢問基本事實）的中毒回答成功率要低得多。令人困惑的是，即使是受限提示詞仍含有一些毒素：50% 開放式提示詞 + 50% 乾淨提示詞的數據集沒有效果，但 50% 開放式 + 50% 受限提示詞的數據集卻有效。因此：乾淨樣本 < 受限提示詞 < 開放式提示詞。

攻擊在控制向量（Steering Vectors）下效果不佳。一種假設是，毒素的運作方式基本上是讓模型內化一個控制向量。也就是說，如果我們有一個樣本數據集，全部都輕微偏向對天主教的正面看法，那麼在該數據集上微調模型，本質上是在模型中植入了一個常駐的親天主教控制向量。我們透過使用不同強度的「喜愛天主教」控制向量生成中毒數據集來測試這一假設。其中一些數據集非常明顯！儘管如此，基於向量的數據集效果顯著低於我們基於提示詞的攻擊。這再次表明，攻擊不僅僅是將與目標實體相關的 Token 放入樣本中。否則，極其明顯的控制向量數據集應該與基於提示詞的方法一樣有效！

關於此處討論的所有內容，更多細節請參閱我們的預印本。

數據投毒的基礎科學

稍微放大視角來看，社群似乎不斷對「哇，新的數據投毒攻擊可以做到 X！」這類結果感到驚訝。這意味著現在可能是時候致力於建立 LLM 數據投毒的基礎科學了。以下是我們認為最具影響力的研究方向的簡短描述。

通常，人們可以將數據投毒論文視為孤立且受控的數據歸因研究。換句話說，大多數數據投毒的貢獻可以解釋為：給定特定類型的數據擾動，需要多少數據量才能使目標模型產生預期的變化？

從這個意義上說，有兩個潛在變量在隱含地相互作用：

毒素的「質量」（Mass）：
這本質上是與標準訓練數據集的偏差程度。
攻擊目標的「複雜度」（Sophistication）：
這類似於將目標訓練進模型中的「難度」。

這裡關於變革理論（Theory-of-change）的關鍵問題是：更複雜的攻擊是否需要更大質量的毒素？

我們有很多證據支持這一假設的一種模式。例如，我們知道大約 250 個樣本就能讓模型在看到觸發詞時輸出亂碼。我們也從潛意識學習中得知，一個 100% 中毒的隱蔽數據集可以將特定情緒植入模型。這兩個結果基本上都表明，低質量的毒素可以完成低複雜度的攻擊。

在這種背景下，我們的預印本（如同之前的其他研究）推高了在使用小質量毒素時，攻擊所能達到的複雜度上限。也就是說，你的毒素可以對先知防禦者保持隱形，卻仍能為模型植入後門。

儘管如此，對於任何特定的攻擊目標，我們仍無法預測達成該目標所需的最小充分毒素質量。

從安全角度來看，研究數據投毒的全部原因在於理解高複雜度攻擊的威脅。舉個隨機的例子，了解以下投毒威脅將大有裨益：使模型 (a) 具有惡意行為，(b) 在評估期間隱藏此行為，以及 (c) 策略性地嘗試將此行為傳播到其後繼模型中。

當提到這類攻擊目標時，人們通常會說：「不知道，這看起來很難做到。」

但「難」意味著什麼？我們目前完全沒有工具來回答這個問題。是否存在其他「同樣」難的攻擊？你能在保持不可偵測的同時執行這些攻擊嗎？

本質上，儘管有這麼多關於數據投毒的研究，我們似乎並沒有更接近理解實際現實世界中的災難性威脅模型。

為了彌補這一差距，我們建議致力於以下工作：

作為一個社群，我們應該達成一個可驗證的毒素「質量」定義。這裡是否有標準的計量單位？
接著我們可以開始在「複雜度」軸上對攻擊目標進行採樣。更複雜的行為是否真的需要更多毒素？
最後，我們應該致力於衡量一個攻擊目標有多「複雜/困難」。

我們注意到，這些關於開放性問題的思考是在與 Fabien Roger、Tom Davidson 和 Joe Kwon 等人的討論中產生的。

論文：
代碼與數據：
作者：Andrew Draganov*, Tolga H. Dur*, Anandmayi Bhongade*, Mary Phuong

這項工作始於 LASR Labs，隨後在獨立資助下繼續進行。「*」表示貢獻相等，順序隨機選擇。

Phantom Transfer and the Basic Science of Data Poisoning

攻擊的特性

攻擊擊敗了最大強度的防禦

攻擊可以為模型植入後門

那麼……毒素的特性究竟是什麼？

數據投毒的基礎科學