摘要: 當前的 AI 系統在兩種形式上擁有超越人類的記憶:來自訓練的參數化知識,以及可容納數百頁內容的上下文窗口,然而兩者之間卻沒有連接的路徑。在上下文中學到的所有內容都會在對話結束時消失,這是一種計算形式的「順行性遺忘症」(anterograde amnesia)。近期研究顯示,基於權重的持續學習(weight-based continual learning)可能比普遍認為的更接近實現。如果這些技術得以擴展,且沒有其他重大障礙出現,通往 AGI 的道路可能會比預期更短,這對時間表以及假設權重凍結的技術對齊研究將產生嚴重影響。
前言
詢問研究人員在通往 AGI 的道路上缺少了什麼,持續學習(continual learning)經常名列前茅。這是 Dwarkesh Patel 給出 其 AGI 時間表比許多前沿實驗室更長的首要原因。從經驗中學習、隨時間累積知識的能力,是人類能夠完成幾乎所有智力壯舉的方式,然而當前的 AI 系統儘管具備令人印象深刻的能力,卻根本無法做到這一點。
AI 記憶的悖論:雙重超越人類的記憶
令人困惑的是,大型語言模型已經在兩個截然不同的方面擁有了遠超人類極限的記憶能力。
首先是參數化記憶(parametric memory):在訓練期間編碼在數十億個權重中的知識。領先的模型基本上攝取了整個公共互聯網,加上龐大的書籍、代碼和科學文獻庫。在 GPQA Diamond(一項博士級科學問題基準測試,博士領域專家得分約為 70%)上,前沿模型現在已超過 90% 。
它們能用數十種編程語言編寫可運行的代碼,並在競爭性編程排行榜上名列前茅。它們精通大多數人類口語,並能擊敗任何《危險邊緣》(Jeopardy)冠軍。去年,一個 AI 系統在國際數學奧林匹克競賽中達到了金牌水準,且越來越多報告指出,模型在應用於尖端數學和物理研究時非常有幫助。前沿模型的參數化記憶包含的事實、模式和技能,比任何人幾輩子所能習得的還要多。
接著是工作記憶(working memory):上下文窗口(context window)。在這一點上,模型同樣是超越人類的。一個 128,000 token 的上下文可容納相當於一本 300 頁的書並達到完美回憶,每個字都可觸及,每個細節都能檢索。在該窗口內,模型展現了卓越的上下文學習(in-context learning):只需幾個新模式的範例,它們就能進行泛化,效率通常與人類相當。少數幾次示範就能教會一種新的寫作風格、符號系統、代碼庫慣例或抽象模式 。
那麼問題出在哪裡?答案是這兩個記憶系統是完全斷開的。沒有從上下文通往權重的路徑。當對話結束時,上下文窗口中的一切都會消失。
最貼切的類比是順行性遺忘症,這是一種患者可以訪問舊記憶並在每一刻正常運作,但無法形成新記憶的症狀。他們可以進行對話、遵循複雜的推理,甚至在一個時段內學習。但到了第二天,一切都消失了。每個早晨都從同一個固定點開始。當前的 AI 系統正遭受著這種症狀的極端^([1] )計算版本。
主要的解決方案是外部化記憶。順行性遺忘症患者無法恢復形成新記憶的能力,相反,他們將記憶轉移到持久的人造物中——日記、筆記本、白板、書面日誌——這些可以被重新閱讀,以便在每次重置後重建上下文。這些輔助工具充當了代理的情節存儲:內部沒有學到任何東西,但可以恢復足夠的狀態來運作。
這基本上就是我們為 AI 系統所構建的東西。
腳手架方法 (The Scaffolding Approach)
業界已趨向於使用日益複雜的腳手架(scaffolding)——代表模型管理上下文的外部系統。Andrej Karpathy 曾將此描述為 將 LLM 視為一種新的操作系統:模型是 CPU,上下文窗口是 RAM,而「上下文工程」則是策劃在任何時刻哪些信息應該佔據那寶貴工作記憶的藝術。
這些腳手架有幾種形式。檢索增強生成 (RAG) 將信息存儲在外部,並根據需求將相關片段注入提示中。記憶功能 (現在是 Claude、ChatGPT 等的標準配置)將對話總結為持久的用戶檔案,並在每次對話開始時插入上下文窗口。CLAUDE.md / AGENTS.md 文件充當編碼代理的入職文檔,每次會話都會重新加載。Agent Skills 將指令和資源打包到可發現的文件夾中進行漸進式披露,根據需求呈現相關上下文,而不是預先加載所有內容。當代理達到上下文限制時,壓縮(compaction) 會激進地總結軌跡,將數小時的工作壓縮成幾千個 token,同時保留關鍵決策、文件更改和待辦任務。
最終呈現的是一個複雜的系統,靜態模型位於外部記憶輔助工具網絡的中心。上下文從文件、數據庫和檢索系統流入;經過處理;然後流回存儲。這些系統確實有效,配合其超越人類的參數化知識和上下文窗口,使它們能成為日益勝任的編碼代理,現在在知識任務上保持連貫性的能力遠好於任何患有順行性遺忘症的人類。
這種方法的前沿是代理式上下文管理:與其構建為模型管理記憶的腳手架,不如訓練模型使用工具來管理自己的上下文。Context-Folding 例如,訓練代理為子任務分支到子軌跡,然後在完成時將中間步驟折疊成簡潔的摘要,有效地將所需的活動上下文減少了 10 倍。與其由系統施加外部壓縮,模型會主動決定保留、委派或捨棄什麼。
但所有這一切,無論多麼複雜,本質上仍然是外部的。模型本身保持凍結。所有持久化的能力都存在於權重之外。
這足夠了嗎?
有一個看似合理的論點認為,這些腳手架結合規模擴展和更好的訓練,將足以滿足任何實際目的。我們不需要弄清楚如何通過拍打翅膀來飛行才能製造飛機;我們需要的是強大的引擎和用於升力的大型固定表面。
也許我們根本不需要基於權重的持續學習,只要有足夠大的上下文窗口、足夠好的檢索、足夠智能的上下文管理,並全部包裹在日益強大的基礎模型中,就能帶領我們到達目的地。現在出現的 1M+ token 窗口使得 RAG 對許多用例來說變成了可選項。代理式上下文折疊可以將有效記憶任意延長。
但也有理由認為單靠腳手架無法彌補差距。上下文窗口仍然受限於計算、內存以及從數百萬 token 中檢索正確信息的難度。雖然上下文學習非常靈活,但它可能是在模型已有的表示空間內運作,進行重新組合和適應,而不是構建根本性的新認知機制。基於權重的學習可以提供本質上不同的東西:重塑模型自身計算結構的能力,形成以前不存在的新抽象。其目標是開發出能橋接這些模式的算法,既保留上下文學習的樣本效率,又允許經驗逐漸重構系統。
基於權重的持續學習
目前沒有任何前沿模型具備這種基於權重的學習能力。然而,最近的論文已開始探索賦予 LLM 更多持續學習能力的方法,利用深度網絡巨大的參數容量直接在權重中存儲記憶。在這裡,我想重點介紹兩篇論文,第二篇是在第一篇的基礎上發展而來的,在我淺顯的評論中,這兩篇看起來特別有前景,我預計它們的技術在不久的將來會出現在前沿模型中。
Titans
這篇來自 Google Research 的論文在 2024 年的最後一天發布於 arXiv。Titans 提出了一種混合架構,帶有一個「神經長期記憶」(Neural Long-term Memory)模塊,該模塊在推理過程中會更新自身的參數。當模型遇到令人驚訝的輸入時(操作上是指在輔助關聯 (key→value) 目標下產生較大學習信號的輸入,其中 key/value 投影和更新/遺忘動態在外層循環中進行元訓練),它會執行一個微小的基於梯度的更新,將該關聯存儲在記憶網絡的權重中。檢索則僅僅是通過該記憶網絡的一次前向傳遞。
雖然大多數線性遞歸模型(如線性注意力/SSM)通過預定義的遞歸將歷史壓縮成固定的向量或矩陣值狀態,但 Titans 改為使用一個深度神經記憶 ,其參數本身充當長期狀態。這產生了一種兩級優化的視角:在外層循環 (標準訓練)中,整個模型進行端到端訓練,但它也被訓練成使記憶模塊成為一個良好的在線關聯學習器 。然後在推理時,記憶模塊使用輔助鍵值重構損失(而非 LM 損失)上的微小梯度步驟來更新自己的權重,動量和自適應衰減則充當記憶的持久化/遺忘機制。實際上,模型學會了一套關於在長期記憶中存儲什麼以及遺忘什麼的學習程序。
在「記憶即上下文」(Memory as Context, MAC)變體中,這種長期存儲與傳統的 Transformer 注意力塊集成在一起,處理段落大小的窗口。在處理新段落之前,模型使用當前輸入作為查詢,從神經記憶中檢索相關的歷史抽象。這些檢索到的嵌入被預置到輸入序列中作為偽 token,有效地為短期注意力機制提供了一個總結性的「歷史上下文」。這使得模型能夠保持注意力機制的高精度依賴建模,同時將其植根於對遙遠過去的更深層、非線性的表示中。
*在典型的語言建模和常識推理基準測試中,Titans 變體通常與強大的 Transformer 和現代遞歸基準模型具有競爭力。更大的差距體現在長上下文檢索和推理基準測試中:在 RULER 的大海撈針任務中,Titans(特別是 MAC/MAG 變體)在 16K token 的設置下仍能保持高檢索準確度,而多個線性遞歸基準模型在該長度下會劇烈退化。在 BABILong (一個更難的「大海撈針式推理」基準測試,模型必須結合散佈在極長上下文中的事實)中,據報導 Titans (MAC) 在少樣本和微調體制下均優於一系列基準模型。在微調結果中,在 1M token 的上下文中,準確率保持在 90% 以上。作者還聲稱該方法可以有效地擴展到超過 2M token。
在計算方面,他們展示了雖然 Titans (MAC) 由於更新深度網絡的複雜性,每 token 的訓練速度比最快的線性遞歸模型(如 Mamba2 和 Gated DeltaNet)稍慢,但它避免了 Transformer 的序列長度懲罰。該架構解耦了操作:高保真注意力僅在局部段落上運行,而對長期記憶的「寫入」則分攤到數據塊(chunks)上。這使得吞吐量仍具競爭力,同時隨著上下文增加而產生日益增長的優勢。標準 Transformer 的 KV 緩存呈線性增長,而 Titans 的「狀態」僅是固定大小的記憶 MLP 權重。對於長上下文,即使與現代更高效的自注意力變體相比,計算優勢也會變得非常巨大,因為預填充(prefill)呈線性而非二次方擴展,且生成過程避免了讀取不斷增長的 KV 緩存所帶來的每 token 帶寬成本。
然而,Titans 的「測試時記憶」引入了標準推理所避免的成本。雖然他們引入了硬件友好的優化,但推理仍包括通過記憶模塊的類反向傳播計算,這涉及一個與記憶參數大小相同的動量式驚訝累積器。在基礎設施層面,每個用戶或每個會話的記憶狀態將破壞通過共享權重為多個用戶批量提供服務所獲得的效率,這需要單獨的計算或某些新的優化技術。
最大的實驗使用了在 30B token 上訓練的 760M 參數模型。我還沒看到有人在更大的計算預算下應用它,但 Jeff Dean 提到了這篇論文 ,將其視為他們可能納入未來 Gemini 模型中的東西,因此我們可能不久後就會在前沿模型中看到類似的東西。
Nested Learning / Hope
由 Titans 的同一批作者發表,《Nested Learning》是一篇更具雄心的概念性論文,它挑戰了短期(上下文)和長期(權重)記憶之間的二元區分。它提出了一個統一框架,認為我們所謂的「架構」(甚至「優化器」)最好被理解為一組以不同更新頻率運行的嵌套優化問題 。我大量借鑒了他們的神經生理學動機來撰寫本文的開篇。
為了理解他們提出的解決方案,我們可以先看看他們如何重新定義標準 Transformer。從 Nested Learning 的視角來看,標準 Transformer 由兩個更新頻率極端的、完全不同的優化層級定義:無限大和零。注意力機制代表了無限頻率的極端,因為它充當非參數化關聯記憶,瞬時「解決」一個回歸目標,為每個新 token 將鍵(keys)映射到值(values),完美適應即時上下文,但一旦該上下文被移除,就不保留任何持久狀態。
與此同時,MLP 塊和注意力權重投影矩陣代表了推理期間的零頻率極端,因為它們的參數僅在外層「預訓練」循環中進行優化,並在測試時保持凍結,代表了無法被新經驗修改的靜態長期參數化記憶。這種設計造成了一個缺口,使模型表現出「順行性遺忘症」。它擁有短暫的短期適應能力和固定的長期知識,但缺乏持續學習或記憶鞏固所需的中間參數化更新。
為了彌補這一缺口,作者提出了 Hope,這是一種填補注意力短暫適應與預訓練權重凍結永久性之間「頻率真空」的架構。Transformer 在兩個極端運行,而他們設計的 Hope 則在記憶可塑性的連續體上工作,模型的不同部分以不同的速率進行訓練。
該架構通過用動態對應物替換 Transformer 的兩個標準組件來實現這一點:
Self‑Referential Titans(在 Hope 中替換注意力) :標準 Titans 增加了一個在線神經記憶,在輔助鍵→值目標下更新上下文中的 MLP 權重,但寫入器(writer)在很大程度上仍是固定的:鍵/值的投影以及更新強度(學習多快、遺忘多少)是由預訓練確定的。Hope 放寬了這一約束。它用額外的學習記憶模塊替換了那些固定的投影和更新規則,這些模塊從預訓練權重開始,然後在上下文中更新,即時產生寫入步驟的參數——鍵、值和每步學習/遺忘控制——並使用基於 Delta rule 的優化器更新自身。因此,Hope 將自注意力的非參數化「從整個上下文中讀取」機制更換為一個參數化關聯記憶系統,其編碼和更新行為可以隨著上下文的演變而適應。
連續體記憶系統 (Continuum Memory System, CMS)(替換靜態 MLP): 標準 Transformer 的 MLP 在預訓練後是凍結的。Hope 用一鏈條以不同頻率更新的 MLP 塊替換了它們——高頻塊更新更頻繁(在較短的 token「數據塊」上),而低頻塊更新較慢。這被激發為一種記憶鞏固的類比:新信息被快速、具可塑性的組件捕獲,並可以通過多時間尺度學習動態/知識轉移反映在較慢、更穩定的組件中。其想法是,各個塊通過它們的耦合計算和共享訓練動態相互影響,因此在變化較快的組件中表示的信息隨著時間推移可以反映在較慢的組件中,並有助於減少災難性遺忘。從機制上講,每個塊在一個數據塊內保持權重固定,然後在數據塊邊界處使用該數據塊上累積的優化器更新信號應用單次更新。
實驗結果
結果表明,彌補上下文與權重之間的差距可以釋放有意義的持續學習能力。
與當前系統最直接相關的實驗評估了 Hope-Attention:將 CMS 多時間尺度記憶系統與標準 Transformer 注意力相結合,而非完全無注意力的 Hope 架構。在這些實驗中,他們採用預訓練的 Llama 3 骨幹,用 CMS 替換凍結的 MLP,然後繼續訓練 15B token。
在類增量學習(class-incremental learning)基準測試中(模型必須按順序學習新類別而不會發生災難性遺忘),這種 Hope-Attention 變體優於標準上下文學習和許多其他持續學習方法。解釋是多時間尺度參數化記憶實現了提示或注意力無法複製的知識保留。
長上下文 QA/檢索顯示,增加記憶層級具有一致的好處:增加層級並更頻繁地更新最持久的 CMS 層級可以提高在大海撈針和 QA 基準測試中的表現,儘管這存在計算權衡。
最引人注目的可能是「新語言的持續翻譯」實驗,模型必須在上下文中按順序學習兩種低資源語言——滿語(Manchu)和 Kalamang 語。標準上下文學習在引入第二種語言後會對第一種語言產生災難性遺忘,而增加 CMS 層級則逐步恢復了保留能力,三層變體幾乎恢復到了原始單語言基準的水準。這表明自適應 CMS 塊有效地從注意力機制中分擔了上下文適應職責,允許模型在其權重中壓縮並持久化語言規則,而不是僅僅依賴傳統的基於注意力的上下文學習。
從頭開始訓練 Hope(作為完全無注意力的骨幹),他們展示了 Hope 在標準語言建模和常識推理基準測試中優於包括 Transformer 和 Titans 在內的基準模型,同時展現出比其他無注意力模型更好的擴展特性。在短上下文回憶任務和大海撈針實驗中,帶有標準注意力的 Transformer 仍然表現更好,但 Hope 比其他無注意力選項有所改進。
在 BABILong 上,微調版本的 Hope 顯著優於 Titans,並報告在 10M token 序列長度下準確率超過 90%,而像 GPT-4 這樣的大型模型在約 128K–256K token 時就會失敗。他們指出,微調對於最慢更新層級的適應是必要的,這允許較快更新的層級在「上下文中」壓縮 10M token。
與 Titans 一樣,Hope 在上下文長度上實現了 O(1) 內存:主要的長程狀態存在於固定大小的權重中,而不是不斷增長的 KV 緩存。權衡是寫入和鞏固步驟帶來了常數因子的計算懲罰,而 Transformer 在推理時會跳過這些步驟。與 Titans 一樣,這涉及更新組件的數據塊梯度計算和優化器狀態。
針對每個用戶部署的基礎設施挑戰比 Titans 更嚴重。Titans 僅更新一個記憶 MLP,而 Hope 的幾乎所有參數都可以按會話更新。Hope 可能最好被理解為這些構建塊的概念驗證,證明了基於權重的更新可以增強、複製或改進注意力的短期非參數化記憶。CMS 塊和 Self-referential Titans 模塊都與固定窗口注意力兼容,目前尚不清楚它們究竟如何能最好地集成到未來的前沿模型中。
Hope 架構報告的最大實驗是一個在 100B token 上訓練的 1.3B 參數模型。對於 Hope-Attention 實驗,他們使用 Llama-8B 並用 CMS 塊替換 MLP 塊後繼續訓練了 15B token。
近期應用
目前尚不清楚這裡描述的技術或其他基於權重的持續學習方法是否能擴展到妥善解決問題。但我認為它們很有前景,我強烈懷疑幾家 AGI 實驗室正積極尋找最佳配置、訓練配方,以及與現有 RL 流水線的集成,以便在大規模上實現基於權重的持續學習。
最終成功的特定持續學習方法可能看起來與 Titans 或 Hope 截然不同。但任何實現真正基於權重學習的解決方案都可能面臨類似的約束:推理時的梯度計算以及按用戶的權重分歧破壞了批量服務的效率。
對於上下文需求有限的標準聊天界面,傳統 LLM 可能仍將佔據主導地位。推理期間按用戶更新權重的基礎設施開銷使得短期內廣泛的消費者部署面臨挑戰。最初的應用更有可能出現在權重更新可以離線計算並在許多用戶之間共享的場景,將開銷分攤到許多使用標準推理服務的請求中。在緩存 KV 預填充(KV-prefill)已經物有所值的地方,基於權重的記憶也可能證明其價值,優點是無論壓縮了多少上下文,學習到的權重都是固定大小的。
對於模型提供商來說,如果這些技術能避免災難性遺忘而不引入不可預測的行為變化,它們可以實現對近期新聞和世界事件的持續訓練,使模型保持最新而無需完整的重新訓練週期。結果將是模型直接「知道」最新消息,而不需要去搜索它。
最有趣的可能是企業應用。在足夠大的規模下,持久化權重更新比每次會話重新計算更有意義。我可以想像一些服務,公司付費維護持續更新的自定義權重檢查點,這些檢查點在其代碼庫、內部文檔、公共 Slack 消息和相關行業新聞上進行訓練,從而產生一個比任何單個員工都擁有更多機構上下文的助手。今天與聊天機器人的大部分工作只是為其提供所需的上下文;基於權重的記憶可以使該上下文默認持久化。
維護自定義模型檢查點的存儲和基礎設施開銷將是不小的。根據架構,這可能只需要更新權重的一個子集。Titans 更新一個額外的記憶 MLP,而其他方法則探索了訓練 Transformer 權重的一個子集^([2] )。但你本質上仍然是在對個性化模型權重進行版本控制和提供服務,而不僅僅是提示和上下文或微小的 LoRa。
然而,如果結果是得到一個接近超越人類的遠程知識工作者,一個真正內化了你的代碼庫、流程、戰略背景和默契的組織知識,且速度比一個非常聰明且經驗豐富的新員工還要快,那麼經濟效益最終可能仍會具有決定性的優勢。公司為一名資深工程師支付 20 萬美元以上的年薪。即使是一個為期數天的單次代理任務,也可能值得在該軌跡期間維護唯一的模型權重:當前的上下文壓縮損失非常大,而基於權重的記憶可能提供更大的容量和對保留內容的學習選擇性。
對時間表的影響
解決持續學習對 AI 進展意味著什麼?METR 關於時間地平線(time horizons)的工作提供了一個有用的視角。他們將 AI 模型的 50% 時間地平線定義為其能以 50% 概率自主完成的任務長度(以人類完成時間衡量)。在軟件和推理任務的多樣化基準測試中,這一指標在過去 6 年中大約每 7 個月翻一倍——有證據表明,從 2024 年起,這一速度已加速到大約 4-5 個月^([3] )。許多人將這種加速歸功於 RL 擴展。2024 年底出現的經 RL 訓練的推理模型證明,RL 後訓練可以釋放出遠超僅靠預訓練所能達到的實質性能力提升。
基於權重的持續學習可能代表類似的拐點。正如 RL 讓模型「思考得更久」,持續學習可以讓它們思考得更久並記住更多,且不受上下文窗口大小的限制。當前的腳手架方法在長程任務中會遇到摩擦:重複的上下文壓縮^([4] )、檢索失敗、跨總結週期的錯誤累積。一個真正能從經驗中學習的模型可以避開這些瓶頸,在數天或數週內保持連貫狀態,而無需進行損失極大的上下文壓縮。模型還可以從部署本身中學習,累積隨時間複合的特定任務專業知識。
安全影響
許多當前的對齊技術假設權重是凍結的。RLHF 和憲法 AI(Constitutional AI)在訓練期間塑造行為;紅隊測試在部署前探測失敗。但一旦發布,模型就是靜態的。基於權重的持續學習打破了這一假設。安全保證不再在部署時固定;它們可能通過部署中的交互以難以監控或預測的方式發生漂移。
在技術層面,保證固定函數對每個輸入的安全屬性已經很難;保證一個在部署期間會修改自身權重的函數的安全屬性則在性質上更難。攻擊面隨使用而演變,且驗證問題沒有明確的停止點。
在概念層面,擔憂在於本體偏移(ontology shift)。像憲法 AI 這樣的對齊技術是相對於模型當前的內部表示來訓練行為的。如果持續學習改變了模型對概念的分類方式(什麼算作「欺騙」、誰算作「人」、哪些行為構成「傷害」),同樣訓練出的行為可能會產生不同的輸出。在凍結模型中能可靠觸發的拒絕機制,一旦模型學會了以不同方式界定同一個請求,可能就不再觸發。
我推薦 Seth Herd 的文章《LLM AGI will have memory, and memory changes alignment 》,他在文中更詳細地闡述了其中一些擔憂。
如果持續學習確實成為標準,這可能會將重點從部署前評估轉向運行時監控、對在線學習過程可修改內容的限制,以及發生故障時的事件分析。這也可能加強了將政策作為安全槓桿的論據。
如果持續學習確實是一個關鍵瓶頸,解決它可能會帶來通用能力的階躍式變化,因為模型會突然在長程任務中累積技能、從部署中學習並複合自身的改進。我們將在模型變得實質上更強大的時刻,引入一種對齊屬性尚不明確的新學習範式。
結論
大量的對齊工作假設權重是凍結的,如果這一假設被打破,目前尚不清楚其中有多少可以遷移。如果你從事對齊工作,這個領域值得比目前獲得的關注更多。如果你在前沿實驗室工作,且看起來持續學習即將被解決,若能提前告知,我們將不勝感激。
患有順行性遺忘症的人類保留了程序性學習。他們可以在鏡像描摹或拼圖組裝等運動技能上跨時段進步,而對練習過這些技能沒有任何意識記憶。↩︎
另一種最近的基於權重的在線學習技術 E2E-TTT ,在數據塊之間僅修改其 Transformer MLP 的最後四分之一,僅需為網絡的最後四分之一計算數據塊梯度。↩︎
參見 METR 的 4 個月聲明 ,Peter Wildeford 發現 50% 可靠性為 4.4 個月 ,以及 Ryan Greenblatt 預測未來 2 年為 5 個月 。↩︎
Opus 4.5 是目前 50% 任務時間地平線最長的模型,其最大上下文窗口為 200k token ,而 METR 每個任務使用的 token 限制為 800 萬個 。↩︎