1. 摘要與概述
大型語言模型(LLM)似乎缺乏幫助人類糾正錯誤的「後設認知技能」(metacognitive skills)。儘管提升這些技能會增強模型在各方面的新能力,但對對齊(alignment)而言,這可能仍是淨正向的。
更好的後設認知能透過捕捉錯誤以及管理複雜認知來減少 LLM 的失誤,從而在一開始就產生更好的答案。這可以穩定或規範化對齊,使系統能夠避免那些在「反思後不會認可」(在某種功能意義上)的行為。^([1] ) 更好的後設認知也能使 LLM 系統在釐清對齊的觀念問題上發揮作用。它能減少諂媚(sycophancy)現象,並幫助 LLM 組織複雜的思考,這對於釐清文獻中的主張與關鍵分歧(cruxes)至關重要。
若缺乏這些改進,與 LLM 系統合作進行對齊研究可能會走向中位數毀滅路徑:是廢話(slop),而非陰謀 。它們具有諂媚性,過度順從使用者,並產生看似有理但錯誤的「廢話」。人類的大腦也會產生廢話和諂媚,但我們擁有後設認知技能、機制和策略來捕捉這些錯誤。思考人類的後設認知技能,可以為如何開發 LLM 的相關能力,以及這些能力如何幫助對齊提供見解(§6 , §7 )。
我並非在鼓吹這項研究。我只是注意到相關工作正在進行,指出其提升能力的潛力,並指出對齊方面的益處可能超過能力提升帶來的危險。我寫這篇文章是因為我認為對齊工作的計畫應該考慮到這些可能性。^([2] )
我將依序詳細闡述。
我假設「後設認知技能」構成了「智能暗物質」^([3] ) 的主要部分,這也是區分 LLM 及其代理(agents)與人類水平能力的關鍵。我(以及許多人)花了大量時間思考,為什麼 LLM 在某些情境下顯得如此聰明,但在其他情境下卻極度無能。我現在認為後設認知技能是答案的核心部分,^([4] ) 且它們的作用大多(儘管非全部)被忽視了。我認為被忽視的原因在於這些技能很大程度上是自動化的,因此是非意識的,就像滑雪高手無法識別出構成其專業技能的大部分感官運動和認知組件一樣。
我將從三個相關概念來探討後設認知技能:專門的神經機制、顯性的後設認知策略,以及技能本身。考慮全方位的範疇,能讓我們更直觀地理解它們如何幫助人類,以及如何為 LLM 實作或訓練這些功能。
為了簡潔,我在文中常將這些統稱為「後設認知技能」,但每一項都值得單獨考慮。詳見下一節 §2 。
最近的一項研究為我的懷疑提供了有力證據:推理型 LLM 的後設認知仍比人類少且差,這導致了冗長且低效的思維鏈(§4 )。
目前已有相當數量的實證研究,嘗試透過訓練、架構支撐(scaffolding)、多系統協作和提示詞(prompting)來改善 LLM 的認知(§5 )。我在《系統 2 對齊:深思、審查與思維管理》 中深入討論了其中一些方法。鑑於這些潛力,後設認知的差距很可能在不久後的 LLM 中被縮小或消除。
提升後設認知對對齊有兩大回報。我將在 §6 討論對齊研究中的去困惑(deconfusion)幫助,並在 §7 討論對齊的穩定性與規範化。
當然,更好的糾錯後設認知也會提升通用能力,並加速通往遞迴自我改進 AI 的進程。^([2] )
以下是詳細論述與證據。我會保持簡潔。各章節可獨立閱讀,雖會導致少量重複,但基本不影響理解。
2. 人類的後設認知技能以及為何我們沒注意到它們
後設認知是「關於認知的認知」。認知心理學和神經科學探討過這個主題,但並不深入或系統化,特別是針對複雜認知。自從 25 年前讀到丹尼爾·丹尼特(Daniel Dennett)關於「思維微習慣」(microhabits of thought)的論述後,後設認知技能對複雜思考的重要性就一直是我思考的一部分,並在較小程度上成為我的研究課題。我現在認為,這是 LLM 代理儘管在某些方面很聰明卻顯得如此無能的主因。
以下僅舉幾個人類後設認知的例子;我懷疑還有更多:
偶爾詢問自己目前在複雜問題中的進度,以及下一步該思考什麼。
在切換主題前,花點時間回憶暫定的結論和不確定的點。
為反對你偏好結論的觀點建立「最強版本」(Steelmanning)。
在決定接受結論並繼續前,評估該結論的重要性。
這些技能的關鍵在於記得在適當的情境下執行它們。
聽到「3 加負 5 是多少?」並憑記憶回答「負 2」是一種認知技能。回憶計算答案的演算法並執行思維鏈也是如此。而思考「在回答前最好再檢查一下邏輯」則是後設認知;它是關於你自己的思考。在適當的時候持續產生這種想法,就是一種後設認知技能。
如果這種想法是顯性的,我稱之為後設認知策略。隨著重複,這些想法會變得更加自動化、更快速且更壓縮,因此更難被察覺和思考。這種自動化反應可能構成了我們大部分的後設認知技能。停下來搜尋記憶中的策略是一項習得的技能,部分源於大腦中特別適合學習該技能的機制。我將在下一節簡要描述這些機制。
我認為我們沒有意識到後設認知技能的重要性和普遍性,是因為它們大多是自動化的,難以察覺。它們可能比體操或寫作等其他技能更具特異性和個人化。它們難以討論或傳授,部分原因是它們不夠直觀。這也導致我們不常思考它們。
顯性策略與自動化技能之間沒有明確界限;自動化或習慣化隨重複而發生,因此任何特定技能都處於完全刻意/顯性到完全習慣/自動的光譜之間。我認為我們學會了許多重要的後設認知技能,但因其自動化而遺忘了它們——就像我們遺忘了在開發運動表現等其他技能時所思考過的眾多策略一樣。不同之處在於,我們能更容易地觀察、討論和傳授那些在頭腦之外展示的技能。
後設認知技能的範圍可能非常廣泛。我找到的心理學文獻僅嘗試對其進行粗略分類(見下文實證),缺乏識別或研究更細微技能的方法論。
2.1. 後設認知的腦機制
人類擁有輔助後設認知技能的特定腦機制。例如,神經科學文獻中大量討論了前扣帶迴(anterior cingulate cortex)及其他腦區的衝突與錯誤訊號。我 2003 年的碩士論文曾間接涉及此主題,此後的工作也以不同方式處理它。這些腦機制有特定的解剖和演化起源。但總結來說,我認為神經科學研究的衝突偵測機制,運作方式與在底層複雜表徵上訓練分類器非常相似,正如我下文評論的 Zhang et al., 2025 研究所示。
我們所知的後設認知腦機制似乎源於學習運動行為的相同強化學習(RL)機制。它們教導大腦在執行我們已得知在重要方面有誤的行動前,先停下來嘗試其他策略。
前扣帶迴中還有特定迴路,學習根據預測的獎勵與懲罰來衡量體力支出。類似的迴路可能也在學習記錄「心智努力」(mental effort),這對於將心智時間明智地分配到最有用的地方至關重要。所有這些似乎都是大腦以多巴胺為中心的強化學習過程的特定應用,利用演化選擇的輸入來引導其先驗知識。
後設認知的關鍵要素之一是在適當的點「停下來思考」。大腦中存在學習停止預測負面價值的物理或心理行為的 RL 機制。這些機制以基底核的間接路徑和周圍的多巴胺獎勵預測電路為中心。詳見我的論文《人類決策的神經機制》 及其中引用的眾多參考文獻。
我不認為細節極其重要,儘管更仔細地研究它們可能會為 LLM 訓練和類似目的的架構支撐提供靈感。在此不再贅述。
§5 評論的工作探討了在 LLM 中加入類似機制的路徑。有些模擬特定的腦機制;有些專注於訓練類似的反應;有些則使用顯性的架構支撐。我認為這些以及其他直接的路徑似乎很可能奏效,至少在某種程度上是如此。我在《系統 2 對齊》 中詳細說明了一些看似可行的機制。
總之,沒人確切知道人類擁有多少後設認知技能、它們是如何習得的,或者它們對認知有多重要。我猜測有很多,且非常重要。我認為 LLM 的這類技能較少且較差,這可能是它們產生比人類(甚至)更多廢話和錯誤的主因。
3. 為什麼我們預期 LLM 的後設認知技能會落後於人類
首先我將說明基於先驗知識的預期,下一節我們將回顧直接比較人類與 LLM 後設認知的研究證據。
LLM 確實「看起來」缺乏後設認知技能。相對於擁有類似知識的人類,LLM 的回答顯得過度自信。這似乎給它們的思考帶來了許多問題,並間接影響了與其合作的人類。它們的反應和思維方式(至少對我而言)類似於那些除非有人提醒否則懶得檢查邏輯的人。這非常主觀,所以我不會以此為主要依據。對我來說,缺乏後設認知技能(和記憶)似乎解釋了為什麼像 Kaj Sotala 和 Thane Ruthenis 這樣謹慎的思考者,會懷疑 LLM 在目前的進程下能否很快達到 AGI。
我上面提到,後設認知技能在文本語料庫中可能僅以微弱的隱性方式存在,因此相對於人類,LLM 訓練方法更難習得這些技能。我會再深入探討一點,但這不是關鍵,如果你願意可以跳過。
語義和語法在文本語料庫中是強隱性的,因此 LLM 首先掌握這些。推理是弱隱性的,與詞彙選擇隔了第二層。而管理和組織推理則是更弱的隱性。有些文本描述推理規則;極少數描述關於思考的思考規則。描述後設認知技能或思維管理本身的文本則更少。在需要後設認知的任務上進行 RL 訓練應該有所幫助,但 RL 可能更多是從監督式預訓練中「選擇」技能,而非「構建」技能。^([5] ) 這會降低其構建後設認知技能的效率。
人類主動、自我導向的學習可能更適合在有限的外部回饋下開發後設認知技能。我們這種自我導向的持續學習模式讓我們能形成假設、測試假設,然後透過自我導向的練習將假設轉化為技能。這在學習後設認知技能及其他表現技能方面可能具有實質優勢。我在《LLM AGI 將擁有記憶》 中回顧了這些觀點。總之,相關工作正在進行中,即使是適度的改進也可能加快 LLM 的進步速度。但這些推測與 LLM 目前在後設認知技能上是否不成比例地落後於人類僅有間接關係。
目前只有一項研究明確比較了人類與推理型 LLM 的後設認知。
4. LLM 後設認知落後於人類的證據
《推理的認知基礎及其在 LLM 中的體現》 (Kargupta et al., 2025 年 11 月)是一項結合機器學習與認知心理學作者的跨學科研究。他們分析了人類的「放聲思考」(think-aloud)紀錄,以及 18 個模型在相同問題上的推理軌跡,尋找包括後設認知在內的不同推理類型。他們的發現支持了我的想法:人類擁有更好的策略和技能來組織思維並發現錯誤,且我們做得更多。
當他們比較人類的放聲思考與 LLM 的思維鏈(CoT)時,人類花費更多時間對自己的思考進行策略性思考。LLM 的行為庫中似乎擁有後設認知行為,但無法自發且靈活地部署。對我來說,這強烈暗示了能力的積壓(overhang)和改進能力的低垂果實。這也是我現在寫這篇文章的主因。
他們報告稱,隨著問題結構變得鬆散,模型在應該多樣化認知策略時反而收窄了策略。它們「訴諸表面層次的重複和枚舉」,並且「無法從先前的驗證中學習」——經常重複檢查已經驗證過的主張。^([4] ) 他們指出人類「更快調用概念處理和抽象化……導致推理軌跡顯著縮短」。
該研究將後設認知分為以下類別。我列出這些是為了啟發對後設認知多樣性的思考,而非權威定義;關於專家表現中後設認知的研究仍很匱乏。
自我意識 —— 偵測能力與局限。
情境意識 —— 識別情境需求。
策略選擇 —— 透過選擇適當方法來回應。
目標管理 —— 透過結構化的子目標引導回應。
評估監控 —— 監控進度並在需要時觸發調整。
論文還發現,架構支撐在某些問題和某些模型上能提供實質幫助——但同樣頻繁地,它會產生反效果並降低性能。而且那是在定向提示的情況下。他們提示模型執行對該任務最有幫助的認知類型,並將其插入成功與失敗的軌跡中。弱模型往往更容易受到損害。但他們沒有在 DeepSeek R1(他們測試的最強模型)上進行此項測試(可能是由於學術預算限制)。因此,目前尚無明確證據顯示此類架構/提示策略在最先進(SOTA)及未來模型上是否更有前景。
機器學習文獻中有很多關於 LLM 缺乏後設認知技能的推測。其他研究也顯示了這方面的間接證據。
推理模型在某種類型的後設認知上似乎比舊模型更差:識別自己不知道答案。AbstentionBench 評估了幾個推理微調模型,發現它們在面對無法回答或定義不明的問題時,拒絕回答或要求澄清的表現往往不如非推理模型(Kirichenko et al., 2025 )。在多個案例中,模型在推理軌跡中表達了不確定性,卻仍給出自信的最終答案。這表明與不確定性相關的訊號並未一致地引導行動選擇,且推理訓練如果沒有專門針對改進後設認知,甚至可能損害這些技能。
5. 目前提升推理模型後設認知的方法
其他關於推理模型後設認知的工作與 Kargupta 等人的研究結論一致,並展示了改進 LLM 後設認知的其他可能路徑。我省略了早期的嘗試(如思維樹),因為這些方法在很大程度上已被 RL 訓練的推理模型所取代。關於改進推理模型後設認知的證據具有啟發性,但尚未令人信服地證明這些方法相對於單純擴展規模(scaling)的效果如何。但我懷疑,即使只是適度關注這一領域,也有低垂的果實可採。
以下是我找到的最相關工作的簡要總結。
相關研究顯示,後設認知訊號在早期的開源推理模型中是存在的,但使用率很低。訓練線性分類器可以揭示與正確性相關的表徵,外部控制器可以利用這些表徵在不降低準確度的情況下減少 Token 使用量(Zhang et al., 2025 )。這些資訊相當穩健,但在不同主題間的泛化效果不佳。人類的後設認知能力似乎隨其在特定主題上的專業知識而變化。這些訊號可能與大腦中的衝突和錯誤訊號相當類似。模型擁有但未充分利用這些訊號的證據,是存在低垂果實的最強指標之一。
多個團隊嘗試使用顯性架構支撐來補償後設認知差距。Meta-R1 引入了一種兩層架構,其中一個獨立的後設過程為推理模型進行規劃、監控並執行停止行為(Dong et al., 2025 年 8 月 )。這透過將後設認知視為架構插件而非基礎模型自動部署的技能,提高了效率,有時也提高了準確度。
《SSR:大型語言模型推理的蘇格拉底式自我完善》 (2025 年 11 月)是另一種架構式方法:模型迭代完善自己的解決方案,但採用結構化的「蘇格拉底式」問答分解並檢查每一步,而非自由形式的「再試一次」。他們使用了困難的數學推理設定,包括「人類最後的考試」(HLE)的純文本數學子集。他們報告稱,SSR 在不同模型規模上都優於純思維鏈和自我完善基準,包括在強大的前沿模型上(「完整 GPT-5」,中等推理/冗長度)。
更有針對性的證據來自 Double-Checker ,該研究探討了長思維鏈推理模型,並得出結論:它們通常無法預設生成有意義的批判,而是反覆重現相同的錯誤(Liu et al., 2025 )。他們展示了少量專注於批判的訓練數據結合結構化的完善循環,可以在困難的數學基準測試中產生巨大收益。這表明自我批判可以作為一種技能被習得,但並非推理訓練的通用結果。
這種針對更好批判的微調,可以與「即使是簡單的批判,只要迭代次數夠多且經過粗略聚合也能奏效(至少在某些領域)」的發現相結合。*《深度自我演化推理》*顯示,將長時程迭代完善應用於 DeepSeek-R1 系列模型,可以解決單次推理和多數投票失敗的一些問題(Liu et al., 2025 年 10 月 )。這些是簡單的提示,大致為「批判上一次嘗試並再試一次」,進行極長次數的迭代,然後對最後幾個範例進行投票。就其實作而言,這效率很低;單個問題可能消耗數百萬個推理 Token。
人類通常能識別出哪些問題重要到值得付出大量努力。這項研究表明,即使是簡單的架構支撐方法,也能讓當前一代模型將額外的計算轉化為更高的準確度,至少在數學問題上是如此。我懷疑,透過稍微複雜一點的架構/提示策略,開放式問題也能同樣受益。這些策略可能是「針對此問題提出幾個不同角度,分別做出判斷,然後進行跨角度聚合」。這是人類專家在對複雜主題形成判斷時有時會明確提到的技術;請注意高品質的藝術評論或編程技術評論中的這種結構。
Kargupta 等人的結論之一是「模型擁有與成功相關的行為庫,但無法自發部署」。這表明開源推理模型(Qwen3、DeepSeek-R1 蒸餾版、Olmo-3、OpenThinker 等)仍有實質的「去束縛」(unhobbling)空間。擁有精細思維鏈的新型 SOTA 模型可能具有稍好的後設認知技能;GPT-5 和 Gemini 3 似乎使用了並行搜索,並顯示出更好的規劃能力,這可能源於架構支撐和/或後設認知訓練。但我強烈猜測,該研究在 R1 和其他開源推理模型中發現的許多弱點在當前一代中依然存在,因此如果專門改進後設認知,仍有一定程度的積壓空間。
關於人類後設認知如何啟發 LLM 改進的更多推測,請參見《邁向人工後設認知》 (2025 年 11 月)。
LLM 的後設認知能否在單純擴展現有方法之外得到改進?很可能。會很快實現嗎?已發表的論文對預測幫助不大。我認為最值得期待的理由是,這能從任何給定模型中榨取更多效率,因此開發者有動力去研究。而且在眾多可能的方法中,有些可能包含低垂的果實。另一個進步路徑是透過增加個人實驗。隨著越來越多的人使用 Claude Code 和類似系統,插件使得實驗不同的架構支撐方法變得容易。
我在《系統 2 對齊》 中討論了這些及其他看似可行的後設認知訓練與架構支撐技術。
改進後設認知對於 LLM 輔助對齊研究,以及類人 LLM 系統的對齊都具有重要意義。
6. 改進後設認知將減少人類/AI 在觀念對齊協作中的廢話與錯誤
目前的 LLM 是一場認識論災難,其諂媚性壓倒了推理能力。扭轉這種平衡應該會有所幫助,大幅扭轉則可能幫助巨大。僅僅是相當可靠且無偏見的人類水平邏輯,就能為對齊提供幫助。
如果每個詢問的人都被告知類似「人類顯然不知道對齊有多難,所以如果可能的話,你應該減緩通往 AGI 的進度」這樣的話,這可能會產生相當大的間接幫助。而更可靠的系統在對齊去困惑方面可能特別有用。
這將是與目前軌跡相比的一個可喜變化。開發者計畫使用未來的 LLM 系統來協助技術對齊。如果它們像目前的系統一樣具有通用智能,它們也可能被用來協助對齊的觀念方面。如果未來的 LLM 在複雜推理方面變得更強,但在識別自身錯誤方面沒有進步,人類將更容易接受那些他們無法完全理解和證偽的廢話。LLM 的諂媚傾向使情況變得更糟。當結合組織、個人和政府之間的競爭動態時,這似乎是一個相當大的風險來源。John Wentworth 等人已經提出有力論證 ,認為這是一個主要擔憂。
我開始認為對齊的觀念問題可能並非超人級別;更多是因為人類有相當明顯的認知局限和偏見。我將在下文簡述一點邏輯。無論這是否屬實,來自 LLM 更可靠且偏見更少的幫助,意味著至少能獲得更多幫助,並降低因諂媚和廢話驅動而導致對齊災難的風險。
6.1 用於研究的理性主義 LLM 系統
下一步可能是能夠進行嚴肅文獻回顧和觀念整合的代理。我想到的是下一代 LLM 系統(如 Codex 或 Cowork 調用 GPT-7 或 Opus 6),它們能閱讀數百篇對齊文章和論文,並系統地構建該文獻中各種主張及其關係的圖譜,具有人類水平的可靠性,但具備非人的速度、持久性和效率。它可以幫助人類理解文獻及其關鍵主張與分歧,而不是透過諂媚和敷衍來加深我們的誤解。
改進後設認知將具有巨大的商業吸引力,因為它能使 LLM 系統在具有經濟價值的任務上更可靠。事實也應如此。後設認知能對抗偏見(包括諂媚)。後設認知的思維管理對於整理大量來源以產生可靠答案至關重要。後設認知也是弄清楚何時從不同角度雙重檢查答案的關鍵。這些對商業和個人用途,以及我們正式稱為「研究」的工作都有幫助。
這類系統所需的後設認知技能正是公認的理性主義技能。它們包括:
追蹤主張之間的邏輯依賴關係,而非表面相似性。
識別關鍵分歧(cruxes)。
標註論證中僅是假設而非論證的地方。
察覺並對抗「為任何感覺良好的事物辯護」的衝動。
為反對觀點建立最強版本(Steelmanning)。
6.2 更好的 LLM 系統可以為 AI 安全去困惑
認同 Eliezer 直覺的人可以問這樣的系統:「對齊樂觀主義者在哪裡直接回應了『行為訓練可能無法在分佈外泛化』的擔憂?」更樂觀的人可以問關於悲觀主義者的對稱問題。政策制定者可以問:「對齊研究者究竟在哪些方面達成了共識(如果有的話)?」許多人會問「創造 AGI 安全嗎?」,而每個人都得到大約相同的正確答案(「我們不知道,所以不安全」)可能會大有幫助。
這些問題在需要超人推理的意義上並不難。它們之所以難,是因為要回答好它們需要閱讀大量資料,追蹤哪些論點真正回應了哪些擔憂(而非雞同鴨講),並抵制動機性推理。^([6] ) 目前的 LLM 執行這項任務會產生讀起來很美但可能錯誤的東西,除非你自己讀過,否則很難發現錯誤。這與人類如果不仔細閱讀、不反覆推敲最重要立場就會產生的失敗類型相同。這需要良好的後設認知。
即使這樣的系統無法在對齊中真正困難的觀念問題上取得進展,它也可能幫助確定那些困難問題究竟是什麼。對齊社群中的一些分歧似乎源於人們沒有時間閱讀並仔細權衡與其觀點相關的所有內容;事實上,即使是全職投入的天才,要徹底做到這一點也可能超出了能力範圍。一個可靠、偏見較少的文獻整合器可能有助於將真正的關鍵分歧與不同閱讀清單和不同動機性推理產生的產物區分開來。^([6] )
當我說這種幫助可能很重要時,背景是研究人員正在與更接近我們實際需要對齊的系統合作並研究它們。這也推動了「近場模式」(near-mode)思考。我預期隨著系統變得強大到如果未對齊會非常危險時,大多數人會更認真地思考對齊問題。到那時,詢問自己的研究助理 LLM 系統「呃,對齊問題中所謂的困難部分又是什麼來著?」顯得如此理所當然且容易,即使是匆忙的開發者也會問。
廣義的對齊問題非常寬泛;適用於我們實際構建的第一批原型 AGI 的子集則較窄,因此更易處理。稱職的 LLM 可能有助於識別我們在任何特定階段和開發類型中必須實際面對的難題。我計畫在未來的工作中進一步闡述這一框架。
7. 改進後設認知將提升對齊穩定性
後設認知技能可能有助於穩定對齊,就像它們穩定人類的倫理一致性一樣。這不會創造良好的價值觀,但它可能會捕捉到偏移和「錯誤」,即系統在反思後不會認可該行動的情況。總體思路是,這可能對一個總體或平均對齊良好、但在某些情境下有實質波動的系統有所幫助。當然,如何定義或估計「總體」對齊仍是一個非常開放的問題。
本節是對一個複雜主題的簡要探討。後設認知技能與對齊穩定性之間的聯繫值得更全面的論述,我希望在未來的文章中做到這一點。
總體思路是,更好的後設認知可能有助於日常對齊的一致性,並幫助解決系統因學習而改變後產生的對齊穩定性問題 。改進後的後設認知技能可以讓系統在宣佈「讓我們來黑掉它!」之前,發現黑掉單元測試會違背其大部分訓練和指令。同樣地,當產生「我剛意識到我應該努力達成目標 X;我要把它加入記憶系統並標記為高優先級!」的想法時,它們也能拉響警報。
人類的後設認知技能似乎在人類倫理判斷的一致性中扮演重要角色。人們經常會有大吼大叫或揍人的衝動。我們擁有捕捉並檢查這些可疑決定的機制。其中一些機制可能很容易在 LLM 中模擬。這對於重大的倫理決策同樣重要。對於那些真正展現出一致倫理判斷的少數(但確實存在的!)人類來說,這種仔細且精細的認知至關重要。
讓我們考慮一個我們許多人都權衡過的複雜倫理決定:發布可能同時提升能力的對齊想法。在做出決定前,我們可能會花費數小時(或更多)仔細思考,嘗試估計可能的影響,並進行一些仔細的後設認知來嘗試估計自己的偏見。這可能包括以下步驟(及許多子步驟):
估計潛在重要性,以確定投入多少心智時間/努力。
預測對對齊和能力的可能影響。
嘗試仔細總結所有這些。
估計自己想要發布以獲得認可並晉升職業生涯的偏見。
估計自己過度估計能力影響的偏見。
包括對偏見的理論理解,以及向自己提出大量問題並估計自己的情緒反應。
這類過程涉及數百個步驟和數小時。這種精細的過程是下一代 LLM 和架構支撐可以企及的。它們需要更好的後設認知來改進並引導這種認知努力,以穩定對齊。
《LLM AGI 將擁有記憶,且記憶會改變對齊》 指出,記憶將靜態系統轉變為不斷變化的系統。如果該 AGI 具有良好的後設認知技能,它將抵制讓其記憶以它不認可的方式改變。當然,關於 LLM「認可」任何事物意味著什麼,存在棘手的問題;它們目前的信念甚至比人類更飄忽、更不一致。更強的持久性和更好的記憶可能有助於解決這個問題。後設認知技能將提升整體的連貫性。
後設認知技能不會創造良好的價值觀。但它們可以透過在不一致和偏移傳播前捕捉它們,來穩定任何現有的基礎對齊。
顯而易見的警告:這假設基礎或核心對齊已經「足夠好」,而「足夠好」的定義複雜且未知。將更好的後設認知應用於一個未對齊的系統,只會使其更「一致地」未對齊。因此,更好的後設認知僅作為大雜燴對齊方法 的一部分才有用。另一個警告適用於此技術及大多數其他對齊技術:它可能會隱藏未對齊的情況,並以關鍵方式減少對齊努力。
8. 結論
關鍵的不確定性在於後設認知的改進能否跑贏它們所賦予的能力提升。我不知道。但另一種選擇——能力越來越強卻仍無法捕捉自身錯誤的系統——看起來非常糟糕。
這不應該是我們研究對齊的方式,但似乎沒有更好的現實選擇。看起來開發者很可能會在對齊我們第一批具備奪權能力的 AGI 時「走一步算一步」。如果大多數人類知道專家們對對齊難度的意見分歧,他們會認為這是一個極其糟糕的主意。但這並不意味著它不會發生。因此,在默認路徑上工作,識別可能的失敗點和緩解措施,似乎是理性的選擇——並結合像本文這樣的強烈反對意見。
我在《系統 2 對齊:深思、審查與思維管理》 中討論了一些實驗方向以及看似可行的後設認知訓練與架構支撐技術。我也更深入地討論了這些技術可能如何成功或失敗。自寫完那篇作品以來,我更傾向於認為這類技術在達到人類水平之前都能運作良好,但可能在此之後很快就會失效。
但我也轉而認為,如果我們明智地使用那些仍然對齊的系統,這可能會提供實質性的幫助。如果我對改進後設認知技能的可能性和後果的看法是正確的,那麼不久後的系統將在對齊研究所需的那種仔細的論點圖譜繪製中發揮更大作用。這不是對齊的解決方案。但它可能幫助我們弄清楚解決方案需要長什麼樣子。
作者註: 這裡的所有想法都是我的;我不信任 LLM 來判斷主張的有效性,而且它們在對齊等獨特主題上的腦力激盪幾乎毫無用處。但這是我第一次讓 Opus 4.5 根據我的筆記草擬部分內容,並讓 GPT 5.2 在對相關研究進行非常詳細的對話後草擬研究章節。這加快了我痛苦緩慢的寫作過程。但我強迫性的重寫最終改變了 LLM 貢獻的幾乎每一個字。
這應該遠遠超過了 LessWrong 關於 LLM 寫作需包含實質性人類貢獻的官方政策,因為這裡的每一個主要主張,甚至可能每一個主張和含義都是人類構思的。我希望這也能回應 LW 對 LLM 寫作高度懷疑的非正式標準。我希望你會同意,想法的來源比措辭的來源更重要,且 LW 及其讀者擁有強大的機制來過濾來自任何來源的錯誤主張。
^(^ ) 我們通常不討論 LLM 在「反思後會認可」什麼。但我認為隨著後設認知的改進,這變得相關。更好的組織複雜思考的技能將使反思的結果更具連貫性和一致性。請注意,人類透過反思也可能得出不同的結論,但反思平均而言確實提高了我們倫理判斷的連貫性。我預期在即使只是稍好一點的 LLM 系統中,這在某種程度上也是成立的。這個主題值得更仔細的思考。我預測,看到下一代 LLM 系統反思其決定將有助於引發此類思考。
^(^ ) 考慮到能力的影響,我一直不確定是否要寫這篇文章。我認為理解對齊的意義超過了傳播這些想法帶來的微小加速。相關工作正在進行中,而後設認知在減少錯誤方面的差異化加速似乎總體上是有益的。當然,這不可能確切知道;微小的加速可能被證明是災難性的,就像微小的對齊優勢可能被證明是決定性的一樣。
賦予 LLM 系統更好的後設認知技能會有明顯的缺點。它會加速通往具備奪權能力的 AGI 的進程。而且將更好的後設認知應用於一個未對齊的系統,只會使其更稱職地未對齊。但比其他能力更快地開發後設認知似乎可能是淨正向的,所以我選擇發表。
我正試圖為短時間線下的 LLM AGI 對齊提供幫助,同時一貫聲明,根據任何合理的專家意見總結,快速開發它們都是高度危險的。
^(^ ) 「智能暗物質」一詞由 TsviBT 在此處 創造。我發現這個詞能很好地描述人類認知能力與 LLM 那種文縐縐且博學的無能之間的差距。
^(^ ) 除了更好的後設認知(或「執行功能」),更好的記憶可能是智能暗物質的另一個主要部分。我在《LLM 認知架構的能力與對齊》 中討論過這一點。我認為記憶和執行功能(包括我在此討論的後設認知類型)的改進具有協同作用,並能互相提升。最近在《LLM AGI 將擁有記憶》 中,我回顧了最近關於 LLM 記憶(或等效的持續學習)系統的研究,以及即使是適度的改進也可能解鎖新能力,包括具有經濟價值的任務。
然而,我不確定持續學習/記憶對於實現人類水平的 AGI 或實質性的 AI 研發加速是否必要。但我確實認為,即使是有限的持續學習也可能在不可預測的方向上造成危險的能力擴張。更好的後設認知是學習新能力的一條路徑。
^(^ ) 目前似乎存在一個鬆散的共識,即推理型 LLM 的 RL 後訓練主要是從行為模式/技能中進行「選擇」,而非從頭「構建」它們。參見 Toby Ord 的《RL 的擴展效果如何?》 、清華大學論文:RL 真的能激勵推理能力嗎……? ,以及這些文章下精彩的評論串。如果這是真的,它將限制 RL 在創造後設認知技能方面的用途。
然而,那些討論強調了「選擇」在從簡單技能構建複雜順序技能時可能至關重要,而某些後設認知技能可能具有這種結構。另請參見《推理微調重新利用了基礎模型中的潛在表徵》 ,該研究證明 RL 以新的方式重新利用了現有表徵,這足以透過 RL 後訓練實質性地提升後設認知。如果 RL 訓練確實能自動幫助 LLM 的後設認知追趕人類,那麼透過差異化地減少廢話,這可能對對齊工作有利。
^(^ ) 許多對齊研究者在某種程度上也是意識形態上的理性主義者。這很有幫助,因為理性主義對動機性推理和確認偏誤提供了一定的抵抗力。但它並不能提供免疫力。理性主義者真心重視改變主意,這導致了檢查或反擊現有信念的後設認知舉動。但理性主義者似乎仍然不喜歡被證明是錯的(也就是說,它會產生負面的獎勵預測訊號 )。這兩種傾向在產生動機性推理和確認偏誤時互相權衡,而我曾論證這是最重要的認知偏誤 。我對此進行過研究並經常思考,當我仔細分析自己的決定和信念時,我仍然能看到它在影響我。