這篇文章是我與朋友及合作夥伴共同進行的一項專案的非正式初步報告。部分理論是與 Zohar Ringel 共同開發的,我們希望今年能就此撰寫一篇更正式的論文。實驗部分是與 Lucas Teixeira 合作完成的(同時也大量使用了 LLM 助手)。這項工作是我在所屬組織 Principles of Intelligence (原名 PIBBSS)與 Lucas Teixeira 和 Lauren Greenspan 共同執行的研究議程的一部分,Lauren 也協助撰寫了本篇貼文。
導論
前言
在撰寫這篇貼文的導論時,我遇到了一些困難。它結合了我過去兩年喜歡並思考過的解釋性(interpretability)的三個面向:
關於 疊加計算(computation in superposition) 的問題。
理解神經網路的「平均場(mean field)」方法。這是一種將神經網路描述為多粒子統計理論的方法,已應用於貝氏學習(Bayesian learning)和隨機梯度下降(SGD)學習中,並在過去幾年中取得了顯著成功。例如,目前唯一已知對神經元分佈及 模組化加法實例中的理解相位轉變(grokking phase transition) 的精確理論預測,就是透過此理論獲得的。
這與我們在 PIBBSS 執行的關於神經網路多尺度結構的議程,以及研究何時一個尺度的現象可以與另一個尺度解耦的重整化(renormalization)物理理論有關。這裡的模型展示了在一階獨立組件^([1] )之間,由一種「挫折雜訊(frustration noise)」介導的嘈雜交互作用——這是一種繼承自不同尺度的「凍結雜訊(frozen noise)」,我們可以透過類重整化的方式從理論上理解它。
我傾向於在初稿中包含所有這些內容。我很想寫一個非常通用的導論,試圖介紹這三種現象,並解釋它們如何透過我將在這裡展示的實驗背景聯繫在一起。然而,這會讓人感到困惑且難以閱讀——當我銘記「你大約只有五個字的額度 」這個建議時,人們往往更喜歡我的技術寫作。
因此,在這篇貼文中,我將專注於這項工作的一個面向,即與物理學上的 挫折(frustration) 概念相關的部分,以及這種有趣的物理結構如何透過 不可約雜訊(irreducible noise) 來源對系統其餘部分產生影響。因此,如果我要總結我想在本文中解釋的「五字核心要點」,那就是:
損失景觀具有不可約雜訊。在某些方面這是顯而易見的:真實數據是嘈雜的且具有大量隨機性。但目前的工作表明,雜訊甚至比數據的隨機性更為基礎。即使在數據分佈高度對稱且結構化,且神經網路是在無限數據上訓練的情況下,網路內部的干擾(由複雜系統對衝突激勵的反應引起)也會導致損失景觀中不可避免的波動。在某種意義上,這對解釋性來說是個好消息:具有不可約雜訊的物理系統通常傾向於在不同尺度的結構之間具有更多的獨立性,並且更容易進行因果解耦和基於 重整化 的分析。此外,如果我們能理解雜訊的結構和來源,我們就能將其納入解釋性分析中。
在這種情況下,景觀中的小尺度雜訊是由系統在大尺度上的湧現屬性引起的。也就是說,在訓練初期,該系統的權重會發展出一種粗糙的大尺度結構,類似於磁鐵的離散上/下自旋。由於與具有疊加性質的數據中的 干擾 相關的原因,這種離散結構受到了 挫折 ,因此在某種意義上被迫變得不對稱且隨機。大尺度上的受挫結構與小尺度上的系統微小波動相互作用,導致微觀的隨機漣漪,其物理原理類似於半導體金屬中的雜質。
*這兩張圖代表了兩個完全訓練好的神經網路的權重,它們在類似的任務上訓練且具有相同數量的參數(圖中的每個點記錄了兩個參數)。左側是一個沒有挫折或雜質的系統,而右側的學習問題發展出了挫折(由於疊加),損失最小值處的權重受到繼承自受挫結構的不對稱且本質上隨機的雜質修正的擾動。
任務
在這項工作中,我們分析了一個最初源自我們關於 疊加計算(CiS) 論文的任務。
具有疊加性質的稀疏數據最初是在 壓縮感知(compressed sensing) 和字典學習領域研究的。在過去 3 年中,利用該領域的技術(特別是 稀疏自動編碼器 SAEs )分析現代 Transformer 網路,導致了解釋性領域的範式轉移。研究人員發現,Transformer 中的隱藏層激活數據在數學上可以用所謂「字典特徵」或 SAE 特徵的稀疏疊加組合來很好地描述;此外,這些特徵具有良好的可解釋性,且 SAE 的變體提供了過去幾年中使用的一些最佳無監督解釋性技術^([2] )。
在我們的 CiS 論文中,我們從理論上探討了疊加提供的稀疏數據的高效線性編碼,是否可以擴展到涉及稀疏數據的 計算 的高效壓縮(我們發現這確實是可能的,至少在理論上是如此)。我們分析的一個關鍵部分取決於管理一種稱為「干擾(interference)」的特定誤差源。這相當於詢問神經網路是否能充分重建 $R^d$ 中嘈雜的稀疏輸入(想像一個像 (0,0,1,0,0,0,1,0) 這樣的 2-hot 向量,在通過 $h < d$ 的 窄 隱藏層 $R^h$ 時加入了高斯雜訊)。$h < d$ 的狹窄性迫使神經網路在隱藏層中使用疊加(這裡輸入維度 $d$ 是特徵維度。在我們的 CiS 論文中,我們使用不同的術語,特徵維度稱為 $m$)。在存在疊加的情況下,實際上不可能獲得完美的重建,因此以這個目標進行訓練相當於詢問「真實的神經網路能學習到多接近理論最小重建誤差的結果」。
在 CiS 論文中,我們展示了對於我們的目的而言「足夠接近」最優的重建是可能的。我們透過「手動」構建一個具有一層非線性的 2 層神經網路來實現這一點,該網路達到了合理的干擾誤差。
這提出了一個有趣的問題:在該任務上訓練的實際 2 層網路是否會學會管理干擾,以及如果會的話,它會學習到什麼算法;我們在 CiS 論文中沒有討論這一點。這項稀疏去噪任務正是我在目前的工作中所感興趣的。該任務在精神上類似於 Chris Olah 的 疊加玩具模型 (TMS) 設定。
下面,我將解釋任務和架構的細節。為了方便那些對細節較不感興趣、想直接了解一般損失景觀和物理面向的讀者,本節的其餘部分是可以摺疊的。
細節(透過隱藏層中的疊加重建稀疏輸入)
我們的模型與 Chris Olah 的 TMS 任務在兩個基本方面有所不同。首先,非線性應用在隱藏層(這是更傳統的做法),而不是像該工作中那樣應用在最後一層。其次且至關重要的一點是,雖然 TMS 任務的隱藏層(發生疊加的地方)是 2 維的,但我們感興趣的是隱藏層本身也是高維的背景(儘管不如輸入和輸出層那麼大),因為這是壓縮感知帶來的壓縮效益真正發揮作用的背景。較不重要的一點是,我們的數據具有雜訊(而不是像 TMS 那樣是直接的自動編碼器),並且修改了損失函數以避免在這種設定下 MSE 損失的退化。
任務:細節
歸根結底,我們希望神經網路嘗試學習的任務如下。
輸入 :我們在 $R^d$ 中的輸入是一個稀疏布林向量加上雜訊,$x^* + \xi$(在實驗中,$x^*$ 是一個 2-hot 或 3-hot 向量,例如 $x=(0,0,1,0,0,0,1,0)$,而 $\xi$ 是在座標層級上標準差 $\ll 1$ 的高斯雜訊)。我們將 $R^d$ 視為特徵基底。
輸出 :「去噪後」的向量 $y(x) = x^*$。作為一個函數,這相當於學習座標層級的「四捨五入到最近整數」函數。
架構 :我們使用一種迫使疊加發生的架構,具有單個 窄 隱藏層 $R^h$,其中 $h \ll d$。除此之外,該架構是傳統的神經網路架構,在中間層具有座標層級的非線性,因此層級為:
Linear($d \to h$) | Nonlinearity($h$) | Linear($h \to d$)。
細節說明 :關於我在任務中使用什麼損失函數和非線性,以及我為隱藏維度 $h$ 和特徵維度 $d$ 使用什麼特定範圍的值,存在一些我不細談的微妙之處。在實驗中,我使用了一類特定的選擇,使理論更容易處理,並讓我們看到非常好的理論與實驗一致性。特別是在損失函數方面,通常的 MSE 損失具有較差的去噪性能,因為它鼓勵在感興趣的範圍內返回零(這是因為稀疏性意味著我的大多數「去噪座標」應該是 0,從「直接 MSE 損失」的角度來看,透過返回 0 來消除這些座標的所有雜訊本質上是最優的,儘管從稀疏計算的角度來看它是無用的)。我實際使用的損失函數經過重新平衡以阻止這種情況。此外,出於理論原因,如果我們不包含偏置(biases)且非線性函數具有某些特定的奇異屬性(具體來說,我使用一個解析的、奇函數、滿足 $f'(0)=0$ 且有界的函數。我使用的具體函數是 $\phi(x) = \tanh(x)^3$),情況會更清晰。在發生疊加的特徵維度 $d$ 和隱藏維度 $h < d$ 的特定(儘管範圍廣泛)數值範圍內,理論也更漂亮。
大部分理論可以擴展到更一般的設定(一個很大的區別是,一般而言,我們使用的主要理論工具將從單粒子平均場理論轉向所謂的多粒子平均場理論)。
在實踐中建模現實神經網路最自然的設定可能是使用 ReLU(或其他「標準」激活函數)和用於重建的 Softmax 誤差損失。雖然在理論上較難處理且在實驗上較混亂,但我預計在這種情況下,一些關鍵的啟發式行為將是相同的。特別是,理論和實驗在這種設定下都能恢復權重符號中的離散「挫折」現象。
結果
這裡的討論將圍繞下圖展開。兩側都代表一個訓練好的去噪模型,如上所述,但只有右側的模型具有疊加。所得權重的差異是與 受挫 物理系統相關的某些現象的視覺呈現。
*這裡每張圖像代表在(實際上)無限數據上訓練完成的模型實例中的權重座標集。左側我們訓練了一個沒有疊加的模型:隱藏維度大於輸入維度。右側我們訓練了一個具有疊加的模型:模型的輸入維度大於隱藏維度(約為 3 倍)。這兩個模型的選擇方式使得權重總數(即圖中的點總數)在兩者中是相同的。
兩張圖像都代表權重景觀中的(單個)局部最小值,它們具有相似的粗糙結構,由幾組形狀相似的簇組成(如果你放大看,可以看到解碼器權重最終的縮放比例不同,且編碼器權重在凸起之間的分佈也不同——我們可以從理論模型中預測這些差異)。但我們也看到兩組權重之間非常明顯的視覺差異。左側的模型似乎收斂到一組高度對稱的權重,在編碼器和解碼器中只有 5 個允許的係數值(除了數值缺陷帶來的微小雜訊)。但是,儘管先驗具有相同的對稱性,右側模型的權重僅具有粗糙的規律性:在簇內部局部看起來本質上是隨機的。事實上,在指導我這裡實驗的理論模型中,我們可以預測在適當的漸近極限下,簇中心周圍的擾動將收斂為高斯雜訊。
這種嘈雜的結構是與疊加相關的受挫平衡在神經網路中的後果。我將在下一節中解釋這一點。
挫折物理學
挫折(Frustration) 是統計物理學中導致 淬火隨機性(quenched randomness) 的幾種方式之一。就其本質而言,統計物理學處理的是具有隨機性和雜訊的現象。隨機性的來源大致可分為:一方面,系統在正溫度下經歷的 波動現象 (想像盒子中氣體粒子的隨機分佈)。另一方面,淬火 或 凍結 現象,它使 定義 感興趣系統的物理力受到隨機擾動或場的影響,這些擾動或場在相關的時間或能量尺度上是穩定的。舉個例子,想想海床的凍結隨機性質。雖然它在幾千年間會發生變化,但物理學家將底部的峰值和谷值建模為一種 淬火 隨機結構,在研究其對波浪統計的影響時,它是固定的。
在這項工作中,我對一種特殊的淬火隨機性最感興趣。淬火結構通常以兩種方式產生。
作為在定義問題時「一開始」就被凍結的外部施加的隨機源。例如,在我理解波浪的例子中,海床中隨機的峰值和谷值就屬於這種類型。另一個具有外部淬火隨機性的經典領域是半導體研究。在這裡,金屬中的雜質以局部隨機的方式影響電子傳導特性,這可以使用淬火無序理論在宏觀上得到很好的理解。
作為一種 湧現 或自組織現象,系統在一開始沒有凍結的隨機結構,但系統的部分自發地自組織成可以被視為固定且隨機的凍結結構。一個經典的例子是材料(如鐵)在受到外部磁場作用時,磁場自組織成 磁疇(magnetic domains) 。
由於學習結合了隨機和結構化現象,它經常被作為一個統計系統來研究。在接下來的章節中,我將解釋我們討論的三種熱力學隨機性來源:回火(tempering)、外部施加的淬火隨機性以及湧現的凍結無序,如何與神經網路理論相關聯,以及這如何與挫折概念和本實驗聯繫起來。
機器學習與解釋性中的回火與淬火無序
現有的解釋性理論經常處理與熱相關的波動隨機性(回火)以及來自 數據 的外部施加的凍結隨機性,且兩者經常被放在一起研究。然而,自發湧現/自組織形式的凍結隨機性較少被研究(至少據我所知是這樣)。
波動 通常出現在 貝氏學習 理論中。在許多理論背景下(特別是關注神經網路學習的啟發式偏誤的背景),將學習算法的 精確 損失最小化目標替換為一個 回火 設定是有用的,在該設定中,我們將學習者建模為收斂到損失景觀上的隨機分佈,根據波茲曼統計定律,損失較低的權重比損失較高的權重更有可能出現。(這在啟發式上類似於在景觀中隨機採樣一個「低損失谷地」,即隨機選擇一個損失距離最小值小於 $\epsilon$ 的權重。)這裡的「隨機性」量由一個稱為溫度的參數控制(它類似於損失谷地圖景中的損失截斷值 $\epsilon$)。回火學習者可以透過經驗設計。有一種學習算法已知會收斂到這種回火分佈,即(隨機)朗之萬下降(Langevin descent) 或 SGLD。在這裡,模型透過偏向低損失區域的偏向隨機遊走進行學習^([3] )。
外部施加的淬火無序 通常透過數據分佈出現在神經網路工作中。當在有限數據上訓練模型時,假設所使用的特定數據點是從大型數據分佈中隨機抽取的。因此,模型在無限數據下學習到的內容與在小型隨機訓練集下學習到的內容之間的差異,隱含了一種稱為 數據樣本雜訊 的雜訊源。
已知這兩種雜訊源是相關的。特別是在兩者都存在的背景下(有限數據上的貝氏/朗之萬學習),通常大致知道哪種隨機性來源佔主導地位。例如,在 Watanabe 的工作中表明,在某個回火尺度(大致與數據點數量的倒數成正比)之上,數據隨機性與來自回火的隨機雜訊相比變得微小,因此統計數據變得與訓練集的大小無關。
在類似的設定中,Howard 等人 使用一種研究淬火無序的標準物理工具,稱為 複製品方法(replica method) ,來更仔細地研究一個同時具有數據雜訊和回火隨機性的學習系統。(這項工作是在一個非常簡單的線性回歸設定中完成的,在那裡可以使用重整化理論做出精確的理論預測。結果發現了與 Watanabe 的臨界溫度範圍類似的「轉變尺度」,並更精確地研究了這種轉變究竟是如何發生的。)
在我們的實驗中看到的隨機簇結構是新形式的凍結無序的結果,這次是自組織的(類似於磁鐵鐵中的自組織磁疇)。在我們的案例中,自組織結構是一種特別有趣且不尋常的物理系統混沌行為的結果,稱為 挫折(frustration) 。
物理學中的挫折
我們一直在談論熱力學和物理系統,卻沒有定義術語。讓我們解決這個問題。對我來說,一個(統計)物理系統是一個具有 能量 概念的高維數據分佈。數據的一個選擇稱為 狀態 ,其溫度是一個數字(在統計意義上「希望變小」)。形式上,狀態的機率由某個溫度 $T$ 下的 波茲曼分佈(Boltzmann distribution) 決定。在這裡(不涉及太深),溫度決定了機率分佈偏好低能量狀態的「程度」。對我們來說最重要的是,在溫度為 0 時,這種偏好達到最大,所有的機率分佈都集中在 最小化 能量的狀態上。
一個「典型」例子是鐵磁 伊辛模型(Ising model) ,其中狀態是由晶格索引的 $\pm 1$ 自旋集合。我們可以將狀態視為一個 $N \times N$ 矩陣 $x$,其所有座標均為 $\pm 1$。能量應該是此類向量的函數。伊辛狀態的能量 $E(x)$ 被定義為某個負整數。它是「鄰居對」(晶格中的邊)中兩個鄰居指向相同方向(即同為上或同為下)的數量的 負值 。由於模型想要最小化能量,能量最低(因此機率最高)的狀態是所有自旋都對齊的狀態。
一個相關的模型,稱為 反鐵磁 伊辛模型,定義類似,但計算 反向對齊 對的數量(在常數範圍內,這只是鐵磁能量的負值)。這裡的一個最小值是自旋的 棋盤圖案 :
在 反鐵磁 模型中,這種狀態是能量最小化的,在能量上受到青睞,能量為 -4 (4 個「相反」連接)。在鐵磁模型中,它的能量為 0 。熱力學系統的能量最小值稱為基態(ground states) 。在溫度 $T = 0$ 時,機率分佈僅集中在基態上。對於鐵磁伊辛模型,這是一個在「自旋向上」基態(所有自旋 +1)上有 50% 機率,在自旋向下基態上有 50% 機率的分佈。「預設」預期是^([4] )基態的數量不會很多:在某種意義上,它們形成了一個結構化分佈的低維空間,要麼是唯一的,要麼至多受控於一個低維的「宏觀」參數。
這種對高度結構化基態的低維集合的預期有時會以一種有趣的方式受到 挫折 ^([5] )。在受挫物理系統中,離散參數具有衝突的能量偏好,這些偏好無法同時滿足,並導致有趣的湧現無序。經典例子是具有 三角形鍵 的反鐵磁體,即自旋的三角形晶格,其中每對自旋都想反向對齊。
*三角形反鐵磁模型的一角,其中相鄰自旋想要反向對齊。當這個晶格擴展到無限大時,零溫靜態理論會發展出無序現象,並根據你測量的內容,同時表現得像有序的「冷」系統和混沌的「熱」系統。圖片來自維基百科。無法同時滿足所有局部能量偏好,事實上,不存在漂亮的「結構化」基態。相反,基態的分佈看起來是混沌且高維的。此外,它具有顯著的熵,類似於被正溫度推離其基態的「熱」系統。
在我們的稀疏去噪模型中,在存在疊加的情況下,會出現類似的受挫能量景觀。在這裡,物理狀態的類比是權重配置,即一對矩陣 $encoder_{ij} \in Mat(h,d)$ 和 $decoder_{ji} \in Mat(d,h)$。能量的類比是損失函數(始終在無限數據的背景下理解)。在存在疊加的情況下,損失函數試圖做的部分工作可以總結為「試圖將許多向量正交地嵌入到較低維空間中」(在我們的例子中,是將 $d$ 個「特徵」向量嵌入到 $h$ 維隱藏層中。疊加意味著 $d > h$)。由於對於超過基底數量的向量而言,精確的正交是不可能的,因此存在受挫結構的潛力。然而,先驗上存在不匹配:受挫結構是關於基態或最小值的 離散 陳述,但我們的系統是連續的。要說出關於基態(即精確最小值)上離散結構的非平凡見解似乎很難。
但等等:我們正在研究的模型在某種程度上是離散的,證據就在我們眼前。這是模型訓練的一個快照(我選擇了一個較小模型的漂亮快照,但你也可以看之前訓練後期的圖像)。
我們看到權重對自然地分解為三個離散簇。特別是,如果我們只看嵌入權重 $encoder[i,j]$,我們看到每一個權重不是在 0 附近的較大簇中,就是在 1.5 附近的較小簇中(更一般地,嵌入權重的「外部」簇將集中在略大於 1 的某個值)。(這裡我們是透過實驗看到的,但也有一個基於平均場理論方法預測權重行為的理論模型,我在選擇方案和實驗時以此為背景,它在這種情況下與實驗有很好的一致性。)
因此,我們可以理解控制訓練後權重 $w_{ij} = encoder[i,j]$ 的「後驗」統計數據由以下過程給出^([6] )。
選擇一個具有座標 $s_{ij} \in {-1,0,1}$ 的「凍結組合 符號 」離散矩陣 $S \in Mat(h,d)$,並寫下 $w^*{ij} \approx 1.5s {ij}$,即相應簇質心的 x 座標。
在此離散值附近的盆地(basin)中找到一個局部損失最小值。
在這個特定系統中,每個這樣的盆地通常存在唯一的局部最小值(注意,在具有更複雜幾何結構的類似模型中,情況將並非如此)。因此,我們感興趣的系統局部最小值是與符號 $s_{ij}$ 的選擇相關聯的盆地最小值。剩下的工作是理解哪些符號矩陣的選擇是基態,即近似全局最小值。現在我們有兩種情況:
沒有疊加,即 $h > d$。在這種情況下,有足夠的隱藏座標(通常稱為神經元)讓每個特徵由其指定的專門神經元處理。我們可以在這裡檢查,確實,這裡的獲勝配置是讓每個神經元(隱藏座標)最多處理一個特徵。這種設定沒有挫折。事實上,一旦我們固定了一些「宏觀」信息,即有多少個特徵由 1 個神經元處理,有多少個由 2 個神經元處理等,剩下的就只有符號翻轉和置換對稱性,在這種情況下這些是系統的 全局 對稱性,因此不會影響損失、幾何結構等。
有疊加,即 $h < d$。在這裡(只要我們處於適當的範圍內),一個基於平均場理論的簡化理論模型表明,基本上任何獨立同分佈(iid)的隨機配置都以高機率是最優的^([7] )。更準確地說,我們固定一個機率 $p$,並獨立地選擇每個符號 $s_{ij}$,以機率 $1-p$ 為零,然後以機率 $p/2$ 獨立地^([8] )選擇 $\pm 1$。這在微小誤差範圍內是最優的(對於某些可以從理論上預測的 $p$ 值)。換句話說,由於疊加明確地鼓勵矩陣係數「不相關」,因此最優選擇是假設完全 沒有結構 ,即隨機結構。特別是,所得系統是深度受挫的:真空集是很高維的且具有非平凡的熵。
備註 。疊加系統的「隨機基態」模型是簡化的:真正的真空可能具有一些我們未能追蹤的隱蔽高層結構,使得某些最小值比其他最小值稍好,儘管在小尺度上,正如我們將看到的,這些結構低於我們在這種背景下能控制的任何範圍。歸根結底,我們真正關心的是學習算法 學習到了什麼 。在這裡,我們可以對權重進行各種經驗分析(例如使用隨機圖測量,或將隨機盆地中的損失與學習到的損失進行比較),以看到 iid 隨機配置能很好地解釋學習到的最小值。
來自凍結結構的連續波動
歸根結底,我們對與有疊加($h < d$)和沒有疊加($h > d$)背景相關的 離散 符號結構有一對預測。現在我們實際上對連續權重值感興趣,我們只知道它們位於與離散質心相關的 盆地中 。我們可以透過兩種等效的方式來思考所得系統:要麼作為一個重整化設定,其中小尺度連續結構擾動了離散配置的能量;要麼作為一個耦合系統,其中離散的「凍結」結構作為背景場耦合到較小尺度的「微觀」系統。第二種設定更容易思考,並讓我們回到了我們在物理設定中討論過的背景,即某些預定的隨機結構(在這種情況下是從同一模型中以湧現方式出現的)被視為系統中「凍結」的隨機源。
展開來看,我們清楚地看到了受挫/疊加與非受挫/單真空設定之間的區別。在非受挫的情況下,離散結構是唯一且對稱的。這意味著連續擾動也是對稱的:一旦我們考慮了有多少神經元處理每個特徵的「宏觀」信息,權重座標就被唯一且對稱地確定了,而「簇結構」簡化為一組離散質心。
在受挫的情況下,隨機結構是不對稱的。挫折意味著即使在離散符號選擇的層面上,我們也找不到精確的規律性,並且某些行/列對的重疊比其他行/列對更多。這種不對稱性與偏離簇質心的微觀擾動系統耦合,並意味著在那裡也會觀察到同樣的不對稱結構。更準確地說,由於我們可以將符號隨機性建模為 iid 離散雜訊,對局部最小值微觀波動的影響可以再次透過中央極限定理很好地建模為連續但「凍結」的漣漪現象,這些現象以可預測的方式隨機擾動盆地局部最小值的座標。這導致了一個在物理學中反覆出現的現象:大尺度上的受挫或隨機離散結構會在某個相關的小尺度上對局部最小值(以及任何其他幾何結構)產生隨機連續擾動。能量景觀中產生的漣漪有時被稱為「釘紮場(pinning fields)」。
隨機釘紮場擾動解釋了我們系統局部最小值(類比於物理學中的真空)權重圖中令人驚訝的嘈雜結構。由於我們已將一對矩陣展平為實數對,這裡有序且看起來對稱的簇結構隱藏了一個受挫且不對稱的凍結符號模式。來自該模式的淬火無序隨後產生了漣漪或釘紮場,使局部最小值偏離精確的理想化數值。
我一直在背景中攜帶的理論模型(我不會在本文中解釋)實際上預測每個簇中的隨機擾動是高斯的。在圖中,你可以看到經驗上並非如此。雖然中央簇看起來確實像非均勻高斯分佈,但兩個角落的簇看起來像是有更多的結構——也許是進一步劃分為兩種類型的點。這可能是某種超出隨機性的微妙結構(在幼稚理論模型中被忽略了)與模型相當小這一事實的結合,可能處於壓縮感知理論給出的漂亮高維壓縮屬性適用性的最末端。(這裡的模型隱藏維度 $h=1024$,輸入即特徵維度 $d=3072$,僅大 3 倍。)
雜項:漂亮的圖片與未來的問題
簇中有趣的非高斯結構暗示了在這個簡單背景下現象的深度,我們才剛剛開始探索其表面。
正如我提到的,我正在研究的特定架構是理論優先設計的:有一個受平均場啟發的圖景,用於獲得關於這些模型權重的預測,這在某些設定和範圍內要簡單得多。在這裡,我採用了一個專門設計為特別適合理論的範圍。
有人可能會問,如果我們作為實驗主義者,或者至少以某種「通用的機器學習方式」來訓練稀疏去噪模型,會發生什麼。為了探索這一點,我做了一些實驗,我們採用 GeLU 激活並在 Softmax 損失上進行訓練(這是最自然的選擇,因為我解釋過直接 MSE 損失在這裡會找到退化解)。
模型最終學習到以下權重配置:
在這裡,仍然有一些啟發式理論可以解釋正在發生的事情,將其建模為高斯斑塊(blobs)的混合。然而,在這種情況下,期望權重對從這個二維圖中的斑塊中獨立選擇已不再合理。左下角較小的部分被遮擋的斑塊中的神經元對實際上與右上角的「雲狀」斑塊耦合或相關,因此「真正的斑塊」是 4 維的。用高級的話說,這裡的平均場理論變成了 2 粒子平均場理論。當然,這裡理想化的平均場圖景充其量只是啟發式近似。例如,我們在不同組件中看到了額外的湧現分層結構,這可能是看到了一些平均場近似未能考慮到的額外結構。與本文其餘部分的設定類似,我預計經驗輸出在更高維度的極限下會更緊密地符合理想化的 2 粒子平均場。
在美學上,我發現觀察模型的訓練過程很有趣:對我來說,它看起來像是一門大砲在射擊雲朵。你可以在 這個 imgur 連結 中看到。
當你在剛好處於疊加與非疊加邊界的設定中運行實驗時,會得到有趣的圖表。在這裡,雖然可能存在少量的挫折,但也存在一些我不知道如何建模的複雜規律結構。例如,這是一張嵌入維度為 768、隱藏維度為 512 的圖像,同樣使用 GeLU 激活和 Softmax 損失:
你可以在 https://github.com/mvaintrob/clean-denoising-experiments 查看這些實驗。
作為該專案的後續步驟,我有興趣研究具有不同重要性、大小或雜訊特徵,或具有額外相關性的設定。我認為這可以成為具有兩個以上相關尺度的實驗設定的有趣來源。我已經運行了幾個具有不同特徵類型的實驗,如下圖所示,但尚未想出一個在實驗和理論上都很漂亮的設定。
我也非常有興趣研究更一般的稀疏計算設定以及具有兩層以上的設定,在這些設定中,除了去噪之外,模型還在具有疊加的模型上學習布林任務。在 Adler-Shavit 中已經進行了一些朝向這個方向的有前景的實驗。
我和我在 PIBBSS 的團隊一直在尋找合作夥伴和非正式合作。如果這些方向中的任何一個吸引你,並且你有興趣探索它們,請隨時在 LessWrong 上聯繫我,或發送郵件至 dmitry@pibbss.ai 。
^([1] )關於 LLM 中這種不完全解耦的一個可能經驗例子,請參見 Cloude 等人關於潛意識學習(Subliminal learning)的文章 ,其中對一類數據進行微調的面向被「凍結」在其中,並可以從看似無關數據的行為中恢復。
^([2] )正如在沒有建立統一地面理論的應用領域中經常發生的那樣,必須強調這是一個 描述性 而非 規範性 的陳述:數據的稀疏結構是一個觀察結果,對 Transformer 的最終解釋必須對此做出說明,但它並不聲稱或暗示稀疏性是數據的完整或充分解釋。事實上,越來越多的共識認為,單靠從稀疏性衍生出的技術 不足以解釋神經網路 ——還需要更多的結構和理論原語,而稀疏性可能既是基本結構之一,也可能純粹是更基本現象的結果。
^([3] )該算法保證最終會收斂到回火分佈,但這通常僅在指數時間後才能保證。儘管如此,該算法在玩具模型中表現得相當好(例如,在具有 MSE 損失的 模組化加法 案例中,它收斂到正確的分佈。在這裡,貝氏極限是透過平均場理論得知的)。在 Timaeus 小組 的經驗工作中,遠離局部最小值的朗之萬下降被非常成功地用於執行各種模型局部啟發式偏誤的熱力學分析。
^([4] )在系統對稱性的範圍內。
^([5] )看到我做了什麼嗎(雙關語)。
^([6] )在我們的背景下,有一種理論上易於理解的方法可以從最優編碼器值矩陣推導出最優解碼器值,因此在這裡專注於編碼器權重的統計行為就足夠了,特別是在這種非正式介紹的層面上。
^([7] )在一個微小誤差範圍內,該誤差遠小於其他感興趣的尺度,因此可以忽略。
^([8] )這稍微簡化了;事實上,我們還需要以嵌入矩陣單行中所有非零值具有相同符號為條件;等效地,我們為每個矩陣座標獨立選擇「零或非零」,並為每一行獨立選擇符號。