In-context learning of representations can be explained by induction circuits
Lesswrong
This post argues that induction circuits, a known mechanism for bigram recall, are sufficient to explain how large language models mirror graph structures in their internal representations during in-context learning tasks.
指出,當大型語言模型(LLM)處理圖形上的隨機遊走(random walks)時,其內部表示會反映出底層圖形的結構。作者對此進行了廣義的解釋,認為 LLM 可以「操縱其表示,以反映完全由上下文指定的概念語義」。在本篇文章中,我們深入研究其底層機制,並提出一個更簡單的解釋。我們認為,歸納電路(induction circuits,; )——一種廣為人知的上下文二元語法(bigram)召回機制——足以解釋 Park 等人觀察到的任務表現與表示幾何結構。
Park et al., 2025 的回顧與重現
我們首先描述 的實驗設置,並在 上重現其主要結果。
圖 1. Park et al. 研究概覽 (a) 網格追蹤任務使用一個 4×4 的單字網格。(b) 模型觀察網格上的隨機遊走(例如:apple bird milk sand sun plane opera ...),其中連續的單字始終是鄰居。隨著序列長度增加,模型開始根據圖形結構預測有效的下一個單字。(c) 令人驚訝的是,模型的有效標記(token)表示幾何結構反映了網格結構:模型在激活空間中將每個節點表示在其鄰居附近。圖表重製自 Park et al.
網格追蹤任務
Park 等人引入了「上下文圖形追蹤」(in-context graph tracing)任務。該任務涉及一個預定義的圖形 $G = (V, E)$,其中節點 $V$ 透過標記(例如:apple, bird, math 等)來引用。圖形的連接結構 $E$ 的定義獨立於標記之間的任何語義關係。模型獲得該圖形上隨機遊走的軌跡作為上下文,且必須根據學習到的連接結構預測有效的後續節點。雖然 Park 等人研究了三種不同圖形結構上的圖形追蹤,但我們專注於他們的正方形網格設置(圖 1)。我們在下方提供實驗設置的細節;除了另有說明外,我們的方法論均遵循 Park 等人的研究。
Park 等人將這些發現解釋為幾何重組在任務表現中發揮功能性作用的證據:模型在其表示中學習了圖形結構,而這種學習到的結構正是實現準確預測下一個節點的原因。
「我們看到,一旦模型看到臨界數量的上下文,準確度就會開始迅速提高。我們發現這一點實際上與狄利克雷能量(Dirichlet energy)^() 達到最小值時密切吻合:能量在上下文任務準確度迅速增加之前不久降至最低,這表明在模型能夠做出有效預測之前,數據結構已被正確學習。這使我們得出這樣的結論:隨著上下文規模的擴大,表示會出現一種湧現性的重組,使模型能夠在我們的上下文圖形追蹤任務中表現良好。」
— Park et al. (Section 4.1; 原文強調)
一個更簡單的解釋:歸納電路
我們提出,網格追蹤任務可以透過比 Park 等人假設的「上下文表示重組」更簡單的機制來解決:歸納電路(induction circuits,; )。
在網格任務中,如果模型在序列早期看過二元組 apple bird,那麼在再次遇到 apple 時,歸納電路可以檢索並預測 bird。由於隨機遊走中的連續標記始終是網格鄰居,因此每個召回的後續標記都保證是有效的下一步。有了足夠的上下文,模型將觀察到每個標記的多個後續標記,並可以對這些標記進行聚合,將機率質量分配給所有有效的鄰居。^()
個別激活值似乎帶有前一標記混合的指紋(圖 6)。例如,在二元組 plane math 出現的位置,激活值往往位於 plane 和 math 質心之間;而在 egg math 出現的位置,激活值則傾向於位於 egg 和 math 質心之間。我們在所有其他二元組中都看到了類似的「中間」行為。如果 $w_t$ 的表示包含類似「自身」與「前一標記」的混合,而不僅僅取決於當前單字,這正是人們所預期的結果。