我們將如何對具有不透明推理能力的模型進行監督式微調（SFT）？

Lesswrong

7 天前

AI 生成摘要

這篇文章探討了未來 AI 模型若從可解釋的思維鏈轉向不透明推理，可能會如何削弱目前的 SFT 控制與對齊技術。我推測了不透明推理可能呈現的形式，並評估了在這些缺乏透明度的系統中維持控制的各種 SFT 策略。

目前的大型語言模型（LLM）將大量推理過程以外顯、人類可理解的語言呈現。這種推理有時是，有時是，而且 LLM 即使。但我整體的印象是，CoT 目前仍是 LLM 推理過程一個相當完整且準確的呈現。然而，以可理解語言進行推理最終可能會失去競爭力——如果是這樣，前沿 AI 實驗室會採用不透明推理（Opaque reasoning）。

如果未來的 AI 模型具有不透明推理，這可能會改變我們對這些 AI 採用的訓練方式。例如，目前我們訓練模型以良好的方式推理數學問題，或以。但如果模型具有不透明推理，我們是否還能進行這類影響模型推理的訓練就不那麼顯而易見了，因為我們無法直接編寫推理過程並對推理軌跡進行監督式微調（SFT）。先前關於基於訓練的控制（training-based control）的研究也討論過將 SFT 作為以下技術：

強制模型進行（即擊敗）。
出刻意隱藏實力（sandbagging）模型的性能。
強制模型在我們擁有標籤的某些分佈上表現良好。

然而，如果我們無法生成推理過程（因為模型的推理是不透明的）來配合我們想要訓練的輸出標籤，那麼這些技術可能就不再有效。

只有在仍有辦法高效訓練具有不透明推理的強大模型時，不透明推理才會被採用。因此，我們主要擔心的問題是，與提升一般能力相比，不透明推理對於旨在實現控制的訓練方法會產生更不利的影響。

這篇文章將推測對於具有不透明推理的模型，基於 SFT 的訓練控制會是什麼樣子，並評論這應如何調整我們在基於訓練的控制方面的研究優先順序。

我強烈希望這篇文章永遠不會派上用場，因為未來的模型將不會有不透明推理。但現實並不在意我的這份希望。因此有了這篇文章。

感謝 Sebastian Prasanna 對不透明推理的討論。
感謝 Sebastian Prasanna、James Lucassen 和 Eric Gan 對本文的反饋。

不透明推理可能長什麼樣子？

為了理解 SFT 對於未來假設中具有大量不透明推理（即遠多於目前）的模型會有多大效果，對這些不透明推理模型可能的外觀有一個具體的想像是有幫助的。（雖然我認為過多思考神經語言（neuralese）模型可能長什麼樣子，進而推動其前沿發展可能是件壞事（這主要是出於對技術領先優勢的擔憂））。
以下是一些非窮舉的可能性：

模型結構與現在相同，但在大量強化學習（RL）後，其 CoT 漂移成一種外星語言。奇怪的可能是這種情況的前兆。
模型的訓練方式如下：從 Transformer 初始化開始，然後將其修改為真正的遞歸（而不是像現在的 Transformer 透過採樣實現遞歸）。更準確地說，你可以反覆將最後一個隱藏層饋送回模型中（與其餘的「潛在標記（latent tokens）」一起）。這使得整個計算過程是可微的，因此你可以透過整個模型的反向傳播來訓練它。這就是的做法，只不過他們是逐步引入潛在推理的使用。
模型可能是一個並非從語言先驗初始化的 RNN。
模型可能是一個文本擴散模型。

我認為不透明推理最有可能在 RL 過程中產生，並認為從預訓練先驗初始化模型似乎是可能的。

對於具有不透明推理的模型，我們有哪些 SFT 選項，效果又如何？

在本節中，我將列出幾種對具有不透明推理的模型進行 SFT 的技術，並討論我預期它們的有效程度。值得注意的是，所有基於 SFT 方法的一個主要瓶頸是，在困難領域獲取標籤可能很困難，甚至是不可能的。以下是清單：

| 技術 | 對不透明推理模型的有效程度如何？（有效性量表：🔴=非常糟糕，🟡=還可以但不太好，🟢=有前景） |
| :--- | :--- |
| 照常進行 SFT。 | 🟡 如果不透明推理仍在標記空間（token space）內（但它以一種已偏離人類語言且不可解釋的方式使用標記），模型可能仍然理解正常語言，對正常語言進行 SFT 可能有效。然而，模型也很可能能夠抵制這種極度偏離策略（off-policy）的人類語言文本轉移到它使用外星語言思考時的方式。訓練強度大到足以強制模型使用人類可理解的語言，可能會付出巨大的能力代價。如果模型使用軟標記（soft tokens），這甚至可能有效：你可以直接將實際標記嵌入到軟標記空間中，模型或許能理解它們。 |
| 使用空的推理軌跡進行 SFT。 | 🔴 對於從 Transformer 初始化的模型，如果你在強制推理為空的情況下進行採樣，某些事情會發生。你顯然可以對 Transformer 以及帶有軟標記的 Transformer 這樣做。在基本上任何 RNN 上可能都有類似的做法。沒有什麼理由認為對空推理進行 SFT 會對模型使用推理的情況產生理想的泛化。這是一個巨大的分佈偏移，模型在此情況下的表現可能與模型是否為陰謀者（schemer）完全脫節。如果模型能夠守衛目標（goal-guard），那麼這種訓練不應能解決我們的問題。如果模型不能守衛目標，也沒有理由認為這種訓練會導致模型在我們感興趣的分佈上做出我們想要的事情，而且這種特定的訓練方法作為一種去關聯目標的方法似乎並不特別。發現從空推理出發的泛化是有效的，但我認為這僅僅是現有創建惡意初始化技術在創建抵制轉移的模型方面表現不佳的徵兆。總體而言，我認為使用空推理進行訓練在消除不良行為方面不會非常有效（前提是該不良行為最初就存在）。 |
| 生成符合策略（on-policy）的不透明推理，然後透過某種非模型過程（即產生高度偏離策略的數據）生成 SFT 標籤。 | 🟡 如果模型是完全可微的，則透過神經語言進行反向傳播，以增加此生成的機率。如果模型是透過採樣遞歸的，你可以改為從模型中採樣多條軌跡，然後根據它們在 SFT 標籤上的權重來增加/減少軌跡的權重。最終文本與不透明 CoT 沒有因果關係的事實，似乎既會使這種訓練的樣本效率非常低，又可能導致這種訓練嚴重降低模型的性能。我認為這可能是克服隱藏實力的一種好技術（儘管我不知道它是否會比模糊測試或轉向等更簡單的方法更好）。我不認為這會是引導模型在該分佈上表現良好，或實現「由易到難泛化」的好技術。數據偏離策略的事實也意味著，惡意模型可能會採取一種策略，將偏離策略前綴的補全與符合策略前綴的補全區分開來，從而防止泛化。然而，這可能很困難，而且有一些可能可以緩解這個問題。如果惡意模型想在某個特定分佈上隱藏實力，降低這些技術樣本效率的一個好方法是在其推理中輸出垃圾文本。我認為反向傳播可能會比「基於 SFT 目標的 RL」技術具有更高的樣本效率。 |
| 透過從模型中採樣符合策略的補全，然後編輯其輸出使其稍微變好，來生成「幾乎符合策略」的 SFT 標籤，然後對此進行神經語言反向傳播。 | 🟢 這看起來相當有前景。編輯補全使其變好可能比生成一個好的補全更容易。數據幾乎符合策略的特性可能會使這種方法更具樣本效率，也可能解決模型試圖區別對待分佈的問題。 |
| 訓練能對推理進行編碼和解碼的模型。 | 🔴 即使模型進行不透明推理，我們仍可能建立推理編碼器/解碼器（如 / s / NLAs）。如果我們有好的推理編碼器，我們就有可能用英文編寫推理軌跡並對其進行編碼，然後訓練不透明推理模型來模仿這種推理。然而，我們的推理編碼器可能會極度失真，因此這可能既會高度偏離策略，又會導致大量的性能退化。 |
| 乾脆不做 SFT。 | 🟢 SFT 並非基於訓練的控制成功的必要條件：對於許多你可能想透過 SFT 實現的目標，都有很有前景的替代方案。例如，我們可以透過創建任務分佈來潛在地擊敗探索駭入，在這些分佈中，模型必須在某些任務上表現良好以避免被定罪，且這些任務與模型想要表現不佳的任務並非完全分離。我們現在就可以研究這些技術，儘管我們應該在 SFT 無法輕易解決問題的惡意初始化上研究這些技術。 |

從事基於訓練的控制研究的人員現在應該做什麼？

最後，我將討論上述分析應如何改變基於訓練的控制研究。

某些基於訓練的控制研究應針對非推理模型。在非推理模型中，有許多基本現象我們還不了解。除非你主要感興趣的是研究帶有推理的訓練，否則我認為最好避開推理模型。或者，你可以使用推理模型，但不對推理進行特殊處理。也就是說，你允許藍隊在推理上進行訓練。這也可以被視為研究在我們擁有良好翻譯工具，或 SFT 某種程度上有效的情況下的代理方案。

然而，現狀是非推理的惡意初始化基本上會被藍隊簡單的訓練措施輕易擊敗。也就是說，我們未能為基於訓練的控制創建出。根據我團隊正在進行的並行研究，我相信這是一個相當困難的問題。目前，推理模型似乎是紅隊潛在創建出能抵禦訓練的惡意初始化的最有希望的途徑。因此，在推理模型上進行紅藍對抗（我們將推理視為不透明的）似乎是彌散控制（diffuse control）的一個高優先級研究方向（我的團隊計劃在不久的將來進行調查）。

我們應該如何在推理模型上研究基於訓練的控制？以下是一些選項：

僅進行 RL，但使用連續任務分佈來破解探索駭入。
從模型中採樣符合策略的補全，將其編輯得稍微好一點，然後對模型的推理與此輸出配對進行 SFT。
從模型中採樣符合策略的補全，然後對模型的推理與由另一個模型生成的標籤配對進行 SFT。
從模型中採樣符合策略的補全，然後對模型的推理與由另一個模型生成的標籤配對進行 SFT，並透過「對使用該推理產生的 SFT 損失進行 GRPO」來模擬神經語言的反向傳播。（註：我不知道這在實踐中是否有效。但應該有人嘗試一下。）

我們希望未來在我們將推理視為不透明的模型上研究基於訓練的控制的工作，能夠揭示如果未來模型的推理比現在不透明得多時，情況會是如何。

How will we do SFT on models with opaque reasoning?

不透明推理可能長什麼樣子？

對於具有不透明推理的模型，我們有哪些 SFT 選項，效果又如何？

從事基於訓練的控制研究的人員現在應該做什麼？