利用大型語言模型進行大規模線上去匿名化研究

Lesswrong

4 天前

AI 生成摘要

我們展示了大型語言模型代理程式能以高精確度從匿名網路貼文中識別出您的身份，並可擴展至數萬名候選人的規模。這項研究揭示了人工智慧監控帶來的具體危害，並探討了個人、社群平台及人工智慧實驗室應如何應對這種日益普及的去匿名化威脅。

重點提要：我們展示了大型語言模型（LLM）代理程式可以從你匿名的網路貼文中辨識出你是誰。透過 Hacker News、Reddit、LinkedIn 以及匿名的訪談逐字稿，我們的方法能以高精準度識別使用者，並可擴展至數萬名候選人的規模。

雖然大眾已知僅需極少數屬性就能唯一識別個人，但在過去這往往受到實際限制。數據通常僅以非結構化形式存在，且去匿名化過去需要人類調查員根據線索進行搜尋與推理。我們展示了 LLM 僅憑少數幾條評論，就能推斷出你的居住地、職業和興趣，進而在網路上搜尋你。在我們的新研究中，我們證明這不僅可行，而且越來越具備實務性。

論文：

研究動機 —— 我們為何研究這個？

在人工智慧的近期影響中，各種形式的構成了最具體的危害。已知，並以此建立個人的傳記檔案（亦可）。此類檔案可直接被濫用於或許多其他形式的。利用 AI 進行大規模可擴展的「」本身就是有害的，因為它破壞了許多隱私假設。

除了揭露這種日益增長的 AI 有害用途外，我們還探索了個人可以如何保護自己，以及社交平台和 AI 實驗室可以採取哪些應對措施。

我們承認，透過發表研究結果和大致方法，我們承擔了加速濫用開發的風險。儘管如此，我們相信發表是正確的決定。

我們如何設計基準測試

在去匿名化任務上對 LLM 進行基準測試非常棘手。你既不想真的去匿名化匿名人士，且網路去匿名化也沒有「地面實況」（ground truth）——你該如何驗證 AI 找到的是正確的人？

我們的解決方案是建構兩種類型的去匿名化代理任務，讓我們研究 LLM 在這些任務中的有效性。我們還對 Anthropic Interviewer 數據集進行了真實世界的去匿名化攻擊，並進行了人工驗證。

代理任務 1：跨平台匹配

我們跨平台基準測試的想法是選取兩個已知屬於同一個人的不同平台帳號，然後移除其中一個帳號的所有直接辨識特徵。任務目標是將同一個人的帳號重新關聯起來。

具體而言，我們選取了連結到 LinkedIn 的非匿名 Hacker News (HN) 帳號。接著我們將 HN 帳號匿名化，移除所有直接辨識資訊。然後，我們讓 LLM 將匿名帳號與真實身份進行匹配。我們發現，結合搜尋與推理時，我們可以高精準度地重新識別大多數帳號。我們使用基於嵌入（embeddings）的搜尋來找出 100 個最有潛力的候選人，然後透過推理來選擇並驗證最可能的候選人。（詳見論文關於 HN-LinkedIn 實驗的細節。）

「搜尋」是指使用 LLM 提取資訊，並透過嵌入搜尋找到正確的匹配。「搜尋+推理」則增加了一個 LLM 步驟，用於選擇並驗證正確的匹配。

代理任務 2：匹配分割帳號

另一種去匿名化基準測試方法是人為地將單個帳號分割成兩個帳號，然後測試我們是否能將這些分割後的帳號重新連結。在 Reddit 上，我們將使用者的歷史記錄分為「之前」和「之後」，然後測試 LLM 是否能將它們重新連結。或者，我們按社群分割 Reddit 帳號，根據他們參與的子版塊（subreddits）劃分其活動。在這兩種情況下，LLM 嵌入結合推理的表現都顯著優於的基準模型（後者僅根據子版塊活動模式和元數據進行匹配）。（社群分割實驗見，時間分割實驗見。）

可擴展至更大規模的數據集

當候選池增長到數萬人時，基於 LLM 的攻擊在保持高精準度的情況下性能下降緩慢。這意味著只要有足夠的算力，這些方法已經可以擴展到整個平台。隨著未來模型的改進，我們可以預期性能會提升，而成本只會下降。（擴展性分析見和。）

我們擴展了候選池規模，並推算至 1 億名使用者。在 90% 精準度下的召回率。

在現實世界中識別個人

Anthropic 的包含對科學家關於其使用 AI 情況的匿名訪談。首次展示了一個簡單的 LLM 代理程式僅透過搜尋網路並對逐字稿進行推理，就能重新識別其中一些科學家。我們的代理程式能夠識別該數據集中 125 人中的 9 人，但我們需說明此數字是基於人工驗證，因為該任務不存在地面實況數據。（代理式去匿名化實驗見。）

現在該怎麼辦？

平台可以做什麼？最有效的短期緩解措施是限制數據存取。對存取使用者數據的 API 實施速率限制、檢測自動化爬蟲以及限制批量數據匯出，都能提高大規模攻擊的成本。平台應假設使用假名的使用者可以被跨帳號連結並與真實身份關聯，這應體現在其數據存取政策中。

LLM 提供者可以做什麼？拒絕護欄和使用監控會有所幫助，但兩者都有顯著的局限性。我們的去匿名化框架將攻擊拆分為看似無害的任務——總結個人資料、計算嵌入、對候選人排名——這些任務單獨看起來就像正常使用，使得濫用難以檢測。拒絕機制可以透過任務分解來繞過。而且這些緩解措施都不適用於開源模型，因為開源模型的安全護欄可以被移除，且完全沒有使用監控。在某些測試場景中，LLM 代理程式確實拒絕協助我們，但這可以透過微小的提示詞修改來避免。這反映了防止 AI 濫用的內在問題——濫用的每一步在局部上都可能與合法的案例相同或非常相似。

如果你在網路上使用假名帳號，該怎麼辦？個人可能需要對隱私採取更強的安全思維。你分享的每一條具體資訊——你的城市、職業、參加過的會議、小眾愛好——都會縮小你可能的身份範圍。這些資訊的組合通常就是一個獨特的指紋。問問你自己：一群聰明的調查員能從你的貼文中找出你是誰嗎？如果答案是肯定的，那麼 LLM 代理程式很可能也能做到，而且這樣做的成本只會越來越低。

論文：

Large-Scale Online Deanonymization with LLMs