研究如何在訓練中使用模型內部資訊是合理的

Lesswrong

21 天前

AI 生成摘要

我認為研究如何在訓練中使用模型內部機制是合理且對通用人工智慧（AGI）安全至關重要的路徑，因為這能提供更多工具來規範理想行為，儘管有人擔心這會破壞解釋性作為獨立審計工具的功能。

在 AGI 安全社群中似乎存在一種普遍觀點，認為將可解釋性（interpretability）引入訓練過程是「」，包括近期對 Goodfire 的批評。

我覺得這很奇怪，因為這在 AGI 安全社群中其實是一個相當正常的可解釋性研究領域。我，Anthropic 的研究員，FAR 也等等。

我不確定在尖端模型訓練中使用這類技術是否具有淨正向效益，但它極有可能對 AGI 安全非常有幫助；如果我們不進行必要的研究來弄清楚這一點，在我看來顯然是個錯誤。此外，在目前的尖端模型訓練架構中使用這些技術似乎極其困難，因此我看不出這類工作有任何迫切的風險或收益，它更像是一種長期博弈。

我的感覺是，這場辯論中的大多數人在深入細節時，往往持有相當合理且細緻的觀點，但公共輿論卻顯得有些混亂。因此，我想或許可以分享一下我對這一領域現狀的看法，以及為什麼我希望看到更多這方面的研究，並且對於人們具體如何執行並不特別擔心。
^()

在訓練中使用可解釋性具體是指什麼？

廣義上，我指的是任何在訓練中涉及使用模型內部狀態（internals）的行為。這可能包含以下幾點：

直接將模型內部狀態的某些函數（例如探針分數 probe score）加入損失函數（loss），並透過它進行微分，以提供強大的梯度信號來引導模型。
在強化學習（RL）中將探針分數加入獎勵（reward），但模型不會透過探針獲得梯度。
在訓練期間改變模型的內部狀態，例如或。
以上任何一種做法，但會定期重新訓練。

為什麼這項研究能幫助 AGI 安全？

從根本上說，製造安全的模型需要我們擅長訓練模型，使其在難以精確定義「良好行為」的奇異場景中也能按我們的意願行動。因此，我們擁有的工具越多越好。有些事情透過模型的內部狀態可能更容易定義。例如：它是否出於正確的原因做了某事？它是否僅僅因為知道自己正在接受訓練或被監視才表現出這種行為？

此外，我們應該警惕在此處提出孤立的嚴謹性要求。我們在模型訓練中所做的一切，都涉及選取某種期望行為的代理指標（proxy），並對其施加優化壓力。目前的慣例是：對模型行為這樣做沒問題，對思維鏈（CoT）這樣做不好，而對內部狀態則沒人想費心。但我看不出有什麼根本原因認為行為是可以的而內部狀態是禁止的，這取決於我們尚未知曉的經驗事實。

為什麼你可能會擔心這項研究？

我看到最強烈的擔憂是希望將可解釋性作為一個「測試集」。這種觀點認為，我們根本不應該在訓練期間使用可解釋性，而應純粹將其用於審計模型，例如製作測謊儀或判斷模型是否在進行權謀私計（scheming）。這裡隱含的信念通常是：針對可解釋性進行訓練會很脆弱或根本無效，但卻會破壞我們進行審計的能力。因此，如果尖端實驗室開始將這些技術用於提升能力（capabilities），並在此過程中破壞了我們的安全工具，那將會很糟糕。

對於人們為何反對現在進行這方面的研究（而不僅僅是反對尖端實驗室使用內部狀態訓練 AGI），我最好的猜測是：他們認為這項工作如果被使用，極大機率對安全產生淨負面影響，且極大機率導致尖端實驗室無論如何都會使用這些技術，從而造成安全損害。幸運的是，要更改尖端實驗室高度優化的基礎設施架構以在訓練中使用模型內部狀態是極其痛苦的，我認為只有在存在巨大收益和嚴肅政治意願（無論是為了安全還是其他目的）的情況下，這才可能發生。如果這在不久的將來發生在尖端模型訓練中，我會感到非常驚訝，我將其視為一種更具推測性的長期研究博弈。

這變得相當微妙

這裡有許多方法和目標，其中一些比其他的更讓我擔心。我預期這些技術在塑造泛化（generalization）方面最有效，例如透過避免突現的不一致（emergent misalignment）來轉向狹義的不一致，或避免獎勵黑客（reward hacking）行為。

直觀上，每當你在訓練期間應用某種干預或在損失函數中添加內容時，你都在挑戰梯度下降（gradient descent）去尋找破解它的方法。但梯度下降通常會選擇阻力最小的路徑。如果完成任務的唯一方法是破解你的干預，那麼你的干預最好非常強健（robust）。然而，如果存在另一種期望的泛化路徑，那麼你的干預只需要比那個不被偏好的替代路徑更強健即可。這是一個低得多的門檻。我們在中發現這似乎在某種程度上是行得通的。正如 Goodfire 所說的，「」。

其次，我更擔心那些定期重新訓練其可解釋性工具的技術，例如每 100 步重新訓練一次探針。這似乎很可能訓練出那些不具備易於探測之表示（representations）的模型。這可能會導致一堆可解釋性技術失效；而如果我們針對固定的探針進行訓練，我們在訓練後可能還能訓練出另一個探針。不幸的是，定期重訓的做法可能會使技術更有效。

第三，我猜測你將這些技術用在什麼地方非常重要。我推測，將這些技術用於純粹的能力提升，對我們審計模型能力的負面影響，會比試圖用它們來使模型安全要小得多。這對定義很敏感，例如，我會將防止獎勵黑客同時視為安全和能力，而這可能會損害我們檢測普遍欺騙行為的能力。但如果有人想用它來訓練模型，例如讓模型更擅長寫程式而不需要大量的 try-except 語句，或者更好地適應使用者的語言和文化，這在我看來是相當輕鬆（chill）的。

第四，我認為可解釋性是否能作為測試集使用尚未定論。我們還沒有我能信任的測謊儀。Anthropic 直到最近才開始在系統卡（system cards）中提到可解釋性，而且我認為其使用方式仍是實驗性的且非關鍵支撐性的。我當然希望可解釋性能變得足夠強健和可靠，從而成為我們審計模型的重要組成部分，但我們不能將其視為理所當然。

為什麼我希望看到更多這方面的工作？

放大來看，這是一個非常早期的領域。我不知道它會運作得如何，會對可解釋性工具造成多大破壞，或者哪些做法更危險或更安全。我不知道針對探針訓練是否會破壞稍微不同的可解釋性工具（如激活先知 activation oracles）。我不知道針對固定探針訓練是否會阻止我在最終模型上重新訓練探針並使其正常運作。我不知道當你無法透過探針獲得梯度時，破解探針會變得多難。我不知道它是否能讓我做到現有方法無法輕易做到的事情。

這些都是重要的問題，我們應該研究它們！我甚至不知道我上面關於哪些方向令人擔憂的直覺是否正確。我們需要去驗證。

在某種意義上，我認為目前要在這個領域做研究是很難產生明確的淨負面影響的——我絕對認為某些方法更有前景！但即使有人試圖在這裡做純粹的能力研究，我仍然期望能從中學到對安全有用的東西。

It Is Reasonable To Research How To Use Model Internals In Training

在訓練中使用可解釋性具體是指什麼？

為什麼這項研究能幫助 AGI 安全？

為什麼你可能會擔心這項研究？

這變得相當微妙

為什麼我希望看到更多這方面的工作？