《類腦通用人工智能安全導論》新版本發布

Lesswrong

大約 1 個月前

AI 生成摘要

我發布了新版的《類腦通用人工智慧安全導論》，更新了我對確保基於類腦學習原理的未來人工智慧保持安全與益處的技術挑戰研究。本次更新包含了對 AGI 定義的修訂，強調了現有大型語言模型與具備自主、長期能力的運作人類水準智慧之間仍存在巨大差距。

新版本的發布了！

未變動的部分

連結與之前相同：

LessWrong / Alignment Forum 上的 15 篇系列部落格文章：
225 頁的 PDF 檔（目前更新至第 3 版）：
摘要影片：

……摘要也與之前相同：

假設有一天我們利用與人類大腦相似的學習和認知原理，構建出一個通用人工智慧（AGI）演算法。我們該如何安全地使用這樣的演算法？

我將論證這是一個開放性的技術問題，而我在本系列文章中的目標，是帶領沒有預備知識的讀者，一路深入到我所看到的未解問題的最前線。

包含定義、背景和動機。接著到是神經科學部分，論證大腦圖像結合了大規模學習演算法（例如在大腦皮質中）和特定的演化反射（例如在下視丘和腦幹中）。到則將這些神經科學觀點直接應用於 AGI 安全，最後列出開放性問題清單以及參與該領域的建議。

一個核心主題是：人類大腦運行著一種尚未被發明的「基於模型的強化學習」（Model-Based Reinforcement Learning）變體。該系統的獎勵函數（又稱「先天驅力」或「初級獎勵」）規定了痛苦是壞的、飢餓時進食是好的等等。我將論證這個獎勵函數集中在下視丘和腦幹，並且所有人類慾望——甚至是對同情心和正義等「更高層次」的慾望——都直接或間接地來自該獎勵函數。如果未來的程式設計師構建出類腦 AGI，他們的原始碼中同樣會有一個獎勵函數插槽，他們可以在其中放入任何想要的東西。如果他們在獎勵函數插槽中放入了錯誤的程式碼，產生的 AGI 最終將對人類福祉冷漠無情。他們該如何避免這種情況？他們應該放入什麼程式碼——連同訓練環境和其他設計選擇——才能讓 AGI 不會對其程式設計師及其他人的生死感到冷漠？目前沒人知道——這是一個開放性問題，但我將回顧一些想法和研究方向。

更新日誌亮點

那麼有什麼新內容呢？我重新審閱了全文，並根據自以來（希望有）學到的知識，進行了大量的編輯和增補。以下是一些亮點：

什麼是 AGI？

我更新了我的「什麼是 AGI」圖表，並進一步闡述了為什麼有些（並非全部！）大型語言模型（LLM）愛好者對於當今 AI 之外還有多少發展空間存在盲點。

*> ……

我應該詳細說明最後一部分。我認為某些 LLM 愛好者存在巨大的盲點，他們對當今 LLM 能做的一切印象深刻，以至於忘記了當今 LLM 做不到的一切。這些人讀了 (HLE) 上的問題，抓著頭說：「拜託，當 LLM 拿下了 HLE 基準測試，還有什麼是它做不到的？看看那些問題有多難！它必須在所有領域都遠超博士水平！如果這不是超智慧，那什麼才是？」

嗯，不，那不是超智慧，這裡有一個例子說明原因。考慮這樣一項任務：編寫商業計劃，然後創立一家公司並經營多年，使其年收入達到 10 億美元，且全程無需人類干預。當今的 LLM 離完成這項任務還差得極遠，簡直滑稽。類比來說，如果人類像當今的 AI，那麼人類可以獨立完成創立和經營公司的一些狹窄部分，但我們需要某種智慧非人類實體（天使？）不斷干預、分配任務給我們人類，並確保大項目不脫離軌道。當然，人類（和人類群體）不需要天使的幫助就能構思並執行雄心勃勃的計劃，比如創業或登月。我們可以獨立完成。同理，未來的 AGI（和 AGI 群體）也不需要人類的幫助。

無論如何，本系列是關於類腦演算法。根據定義，這些演算法能夠執行人類（以及人類群體和社會）能做的絕對每一種智慧行為，甚至可能更多。因此，它們肯定能達到 AGI。而當今的 AI 演算法不是 AGI。所以在現狀與目標之間，有一條模糊的界線區分「AGI」與「非 AGI」。這條線究竟在哪裡？我的回答是：我不知道，我也不在乎。劃定這條線對我來說從來不是一件有用的事，在本系列中也不會出現。

對智慧否定論者的更多回應

我增加了對另一種「智慧否定論」的回應：

觀點 #6： 「類腦 AGI 有點像是一個不連貫的概念；智慧需要具身性（embodiment），而不僅僅是缸中之腦（或晶片之腦）。我們是透過試錯和社會協作來完成任務的，而不是透過某種抽象的『智慧』。」

神經科學中關於「具身性」的爭論仍在持續。我處於中間立場。我確實認為未來的 AGI 將擁有某些行動空間——例如，（虛擬地）調用某本書並翻到特定段落的能力。我不認為擁有一個完整的實體身體是必要的——例如 (1965-2009) 終身四肢癱瘓，但這並未阻止他成為享譽盛名的作家和詩人。更重要的是，我預期任何對智慧至關重要的具身性面向，都可以輕鬆地整合到運行在矽晶片上的類腦 AGI 中。如果身體對智慧真的是必要的，沒問題，我們可以在 VR 世界中給 AGI 一個虛擬身體——甚至在現實世界中給它一個真實的機器人身體！如果荷爾蒙訊號對智慧是必要的，沒問題，我們可以編寫一些虛擬荷爾蒙訊號。以此類推。

至於社會與協作，這與人類智慧密切相關。數千年來，數十億人類完全從零開始發展出了語言、科學和 100 兆美元規模的經濟。數十億塊石頭在數千年中能做到這些嗎？不能。數十億個當今的 LLM 在數千年中能做到嗎？也不能。（事實上，，LLM 除非訓練數據中已有語言，否則無法從零發明語言。）另一方面，如果數十億人類能做到這一切，那麼數十億類腦 AGI 也能做到。

另外，「一個由數十億 AGI 組成、利用語言協作和交換想法的群體」……本身也是一個 AGI！這是一個需要數十億倍晶片才能運行的 AGI，但它仍然是 AGI。不要低估單個 AGI 能做的事！

人們常將「智慧」與「書本知識」混為一談。這是極大的錯誤。例如，，魅力存在於大腦中，而非腎臟中。

更完善的論述綜述

在更深入了解關於我的「從零學習」假設的各種觀點後，我對論述現狀寫了一份更完善的綜述：

……儘管如此，以下是不同陣營立場的簡化綜述。

支持「從零學習」假設：

許多傳統「連結主義」（connectionist）學派的計算神經科學家，例如 Randall O’Reilly，可能會認同我的大部分或全部假設。至少，O’Reilly 在中明確支持大腦皮質是從零學習的，並引用了作為證據。

許多談論「舊腦（又稱蜥蜴腦）與新腦」的人，例如 Jeff Hawkins 和 Dileep George，也可能認同我的大部分假設，其中從零學習的部分是「新腦」，其餘則是「蜥蜴腦」。關於這個（略有疑慮的）學派的更多內容見。

許多（但非全部）NeuroAI 計算建模者在構建皮質、海馬體、小腦和紋狀體的計算模型時，我認為其方式最終都趨向於從零學習。

**George Ellis & Mark Solms (2017) 的著作 ** 雖然不完全符合我的假設，但已經非常接近，可能比我在文獻中看到的任何其他作品都更接近。他們將大腦分為（他們所謂的）「硬連線領域」與「軟連線領域」，其界線與我的相似。向作者致敬，儘管我對他們的表述有一些吹毛求疵的抱怨。可惜這本書受到的關注太少了。

反對「從零學習」假設：

處於「演化模組化」/「先天認知模組」傳統的人可能會強烈反對皮質是「從零學習」的。這一類別包括大多數演化心理學家（如 Leda Cosmides、John Tooby、Steven Pinker），以及計算認知科學機率程式設計學派的 Joshua Tenenbaum 等人。參見 Pinker 的第 5 章。需要澄清的是，我對演化心理學作為研究課題充滿熱情，但我確實認為現今實踐的演化心理學是建立在錯誤的框架之上的。

使用「演化預訓練」（evolutionary pretraining）等詞彙的人同樣拒絕從零學習框架。「演化預訓練」援引了這樣一種觀點：皮質就像機器學習（ML）演算法，但不是從隨機初始化開始的 ML 演算法，而是「預訓練過」的 ML 演算法，由於演化的作用，它從一開始就能執行有用的先天行為，其方式類似於 ML 文獻中的。我顯然不同意這一點。

以將整個大腦混為一談的方式談論學習與先天性的人隱含地拒絕了從零學習的想法——或者更可能的是，根本沒有考慮過它。例子包括論文，以及，這兩者甚至都沒有提到在學習方面，皮質可能與腦幹截然不同。

可塑性

我重新修訂了關於大腦可塑性的討論，將其與電腦科學中的「可變變數」（mutable variables）聯繫起來：

2.3.3 從零學習並非更廣義的「可塑性」概念

當一般人在勵志書中談論「大腦可塑性」時，他們通常想像的是一種萬物有靈的力量，讓你的大腦神奇地以好的方式而非壞的方式回應變化的環境。

神經科學家的看法則不同：「可塑性」意味著大腦中的某些東西（通常是突觸，但也可能是髓鞘形成、基因表達等）在特定生化觸發機制的作用下，在特定條件下發生持久且特定的變化。這種變化該發生就發生，其後果可能是好是壞（但通常是好的，否則觸發機制就不會演化出來）。

如果我們現在從生物化學轉向演算法，前一段話可能會讓你覺得耳熟：可塑性僅僅意味著大腦演算法擁有可變變數。

現在，任何從零學習的演算法必然涉及可變變數，這才使其能夠學習。例如，深度神經網路的「權重」就是可變變數。

然而，幾乎所有其他演算法也涉及可變變數！例如，Python 程式碼 a=a+1 接受一個可變變數 a 並將其值增加 1。當你玩電子遊戲時，有可變變數追蹤你的物品欄、生命值、進度等。可變變數無處不在且極其尋常。

大腦除了從零學習演算法外，還做其他事情（詳見）。當然，那些其他事情也涉及可變變數，因此也涉及可塑性。因此，存在與從零學習演算法無關的大腦可塑性。讓我們把那些其他事情稱為「特異性可變變數」。以下表格列出了各舉一個例子，以及它們差異的一般方式……

可解釋性

我曾與許多認為可解釋性是類腦 AGI 安全靈丹妙藥的人交談，因此我增加了這一小節作為回應：

2.7.1 類腦 AGI 的可解釋性如何？

「機器學習可解釋性」領域致力於理解從零學習的「訓練模型」的內部機制。我通常支持推進該領域的努力，但我強烈警告人們不要將希望寄託在可解釋性上。誠然，給予足夠的時間，人們或許能理解類腦 AGI 巨大且無標籤的世界模型中的任何特定條目。但是：(1) 也許不能（例如，想想魅力十足的銷售員所使用的成千上萬種隱含且難以描述的學習啟發式方法）；(2) 如果理解一個條目需要仔細審查，我們該如何處理數百萬個條目？(3) 類腦 AGI 在運行時會不斷學習和變化——我們是否必須不斷暫停它，以重新分析其不斷變化的世界模型和慾望？(4) 如果我們不斷暫停它，我們難道不會被隔壁那家更粗心、讓 AGI 全速運行的公司競爭下去嗎？

與此相關的是，人們有時會出於各種原因爭辯說，類腦 AGI 的無標籤世界模型會比 LLM 的更容易理解。無論這是否屬實，我認為這都是轉移焦點。上述四個問題都需要解決，無論 LLM 的可解釋性是否比類腦 AGI 更糟糕。

需澄清的是，我是在反對「因為可解釋性是可行的，所以我們不必擔心安全」這種觀點。我並不反對可解釋性本身，也不反對將可解釋性作為計劃的一個組成部分。關於後者的更多內容將在系列後期討論（特別是）。

我的時間線預測

我增加了一個關於類腦 AGI 何時出現的極其大膽的預測。如果你想知道的話，是的，我願意為此下注，賭注是「0 到無限年之間」，賠率 1:1 😉

……至此結束我關於類腦 AGI 時間線的討論，再次強調這不是本系列的重點。你可以閱讀我的三個時間線章節（、§3.7 和本節），無論認同與否，得出你自己的結論。如果有人好奇，當我被迫給出具體說法時，我的立場是：

我預期超智慧類腦 AGI 會在 5 到 25 年內出現。或者我也覺得可能超過 25 年，誰知道呢。或者我也覺得可能少於 5 年，誰知道呢。（聳肩）

對不確定性下行動的錯誤觀點之回應

我重寫了關於 AGI 不確定性的錯誤觀點綜述，包括「帕斯卡賭注的瘋狂反向版本」：

……同樣，「假設性的」這個詞，如「假設性的可能性」或「假設性的風險」，是另一種投向試圖為不確定未來做計劃的人的嘲諷。從字面上看，這是一種相當奇怪的侮辱：有些假設是錯誤的，但也有一些假設是正確的！

其他各種錯誤觀點圍繞著這樣一個想法：我們甚至不應該嘗試為可能但不明確的未來事件做準備。特別是，有些人的言論聽起來像是我們不應該嘗試減輕潛在的未來災難，直到我們有 >99.9% 的把握確定災難一定會發生。我喜歡稱之為帕斯卡賭注的瘋狂反向版本。當我這樣說時，它聽起來可能像是在紮稻草人，但天哪，它是非常真實且廣泛存在的。我認為它源於幾個地方……現在這個章節有了更多有趣的圖片！第一張是新的，另外兩張是舊的。

關於玩具模型的更多教學

這篇文章的大部分內容都在討論一個特定的玩具模型，許多讀者反映難以理解。我增加了一個新的三部分「預備知識」章節，希望能提供有用的指引和直覺。

……以下是這可能看起來像什麼的玩具模型：

*……

5.2.1 玩具模型演練：預備知識

這是本小節的一個簡要總結表，我將在下文中解釋。

| | 覆蓋模式 (Override mode) | 聽從預測器模式 (Defer-to-predictor mode) |
| :--- | :--- | :--- |
| 訓練誘因 | 預測覆蓋訊號 | 保持輸出穩定 |
| AI 直覺 | 監督式學習 | TD 學習 |
| 神經直覺 | 先天反應 | 自我實現預言 |
5.1.1.1 ……

為什麼自我協調目標位於下視丘與腦幹的更多說明

我增加了一個簡短的總結，說明為什麼我們應該相信像友誼和正義這樣的慾望最終來自下視丘的小細胞群，就像飢餓和痛苦一樣，而不是純粹來自「理性」（正如一位高層 AI 安全資助者曾自信地告訴我的那樣）。

這裡有四個觀點，說明為什麼我們應該相信「轉向子系統」（Steering Subsystem）不僅是飢餓等自我失調（ego-dystonic）衝動的最終來源，也是友誼和正義等自我協調（ego-syntonic）慾望的來源。

AI 視角： 我們還不完全清楚人類大腦中基於模型的強化學習和規劃是如何運作的——我們還沒有類腦 AGI。但我們至少模糊地知道這類演算法是如何運作的。我們知道得足夠多，可以肯定地說，這些演算法不會憑空產生親社會動機。例如，如果你將 MuZero 的獎勵函數設置為始終返回 0，那麼該演算法將永遠發出隨機輸出——它不會開始為正義而戰。

囓齒動物模型視角： 值得一提的是，研究人員在囓齒動物下視丘中同樣成功地發現了協調「反社會」行為（如攻擊性）的小細胞群，以及協調「親社會」行為（如育兒和社交性）的小細胞群。我完全預期人類也是如此。

哲學視角： 如果沒有轉向子系統，皮質唯一能做的就是透過對感官輸入的預測性學習來構建世界模型（）。那是「實然」（is），而非「應然」（ought）。而指出，你不能僅從「實然」陳述中得出「應然」陳述。當然，並非所有人都相信休謨法則。但我相信——參見一個優雅且簡潔的論證。

我的具體提案： 如果你繼續閱讀本系列，以及後續作品、和，我聲稱已經有了一個相當詳細的步驟圖，說明轉向子系統中的小細胞群最終如何導致人類深切關注友誼、正義等。

LLM

LLM 正式來說是不在討論範圍內的，但為了與時俱進，我不得不越來越頻繁地提到它們。這次的改動之一是增加了一個小節：「LLM 難道沒有解決古德哈特定律問題嗎？」

10.3.1.1 LLM 難道沒有解決古德哈特定律問題嗎？

當我在 2022 年初首次發表本系列時，我並不需要為「古德哈特定律（Goodhart’s Law）是 AI 的一種失敗模式」這一觀點辯護，因為它無處不在且顯而易見。我們想要 AI 找到創新的、跳出框架的解決方案（如贏得棋局或賺錢），而這正是我們構建 AI 的方式，所以它們當然會這麼做。而且，「透過我沒想到的聰明方案滿足規範」與「透過利用規範運作中的漏洞滿足規範」之間並沒有原則性的區別。沒有後者就無法得到前者。這在理論上是顯而易見的，在實踐中也同樣明顯。AI 領域的每個人都親眼見過。

……但隨後 LLM 聊天機器人出現了，並產生了一種流行觀點，即「以常識方式服從指令的 AI」是一個已解決的問題。要求 Claude Code 確保 render.cpp 沒有記憶體洩漏，它不會透過刪除文件中的所有程式碼來技術性地「滿足」「規範」。好吧，實際上它有時可能會；我不想淡化 LLM 的對齊挑戰。參見 Soares & Yudkowsky 的 FAQ 以了解悲觀者的觀點。

但更重要的是，無論這對當今的 LLM 是否已解決，對於類腦 AGI 或更廣義的「強化學習代理」（RL agents）來說，這絕對不是一個已解決的問題。它們是截然不同的演算法類別。你不能從一個推斷到另一個。

參見我的文章，深入探討人們如何讓 LLM（或多或少）遵循常識指令而沒有過分的陰謀和欺騙，以及為什麼我們不能直接將同樣的技巧用於類腦 AGI。簡短版本是：LLM 的能力絕大部分來自模仿學習。「真正的」模仿學習是怪異的，與日常的人類社交模仿或生物界中的任何事物都截然不同；我喜歡稱之為「觀察結果向行為的神奇轉化」，以強調其怪異性。無論如何，我聲稱真正的模仿學習具有對齊優勢（LLM 可以說能服從常識指令），但這些優勢與能力成本密不可分（LLM 無法像人類社會那樣真正「想通」超出人類分佈的事物，正如我在中討論的那樣）。因此，這是一個對類腦 AGI 沒有幫助的技巧。同樣，更多細節請見。

工具性收斂與結果主義偏好

我重寫了關於工具性收斂（instrumental convergence）及其與結果主義偏好的關係，以及周邊戰略形勢的討論：

10.3.2.3 不會導致工具性收斂的動機

工具性收斂並非在每一種可能的動機中都是不可避免的。它源於 AI 對未來世界狀態的偏好——最核心的是遠期未來（例如幾週、幾個月或更久）——使得對未來選項的投資有時間獲得回報。這些被稱為「結果主義」（consequentialist）偏好。

鑑於此，一種極端立場是說：「好吧，如果『具有結果主義偏好的 AGI』會導致糟糕且危險的後果，那我們就構建沒有結果主義偏好的 AGI！」。遺憾的是，我不認為這是一個有用的計劃。小問題是，我們可能嘗試確保 AGI 偏好不是結果主義的，但卻失敗了，因為技術對齊很難。大得多的問題是，即使我們成功了，該 AGI 也不會做出任何值得注意的事情，並且當街對面下一家對安全態度隨意的公司製造出確實具有結果主義偏好的 AGI 時，它將無望地被競爭淘汰。畢竟，除了透過想要事情完成之外，很難讓事情完成。關於這兩點的更多內容，請參見我的文章。

那麼相反的極端立場是說：「沒錯！如果 AGI 有任何強大之處，它肯定會完全具有結果主義偏好。所以我們應該預期工具性收斂會產生最強烈的影響。」但我也不認為這是對的——參見我的文章。人類混合了結果主義和非結果主義的偏好，但人類社會仍然能夠從零開始發展出語言、科學和全球經濟。據我所知，類腦 AGI 也可以是那樣。但我們需要弄清楚具體如何實現。

當今的強化學習又如何？

我增加了一段討論：既然我說了這麼多關於強化學習代理有多可怕、我們不知道如何控制它們……然而，當今的強化學習研究似乎進展順利！我該如何調和這一點？

10.3.3.1 「常規代理除錯循環」及其未來的災難性崩潰

我剛才談到了古德哈特定律的普遍性。你可能會好奇：「如果古德哈特定律是一個如此棘手的問題，為什麼現在 arXiv 上有成千上萬項令人印象深刻的強化學習成果？」答案是「常規代理除錯循環」。它適用於任何涉及強化學習、基於模型的規劃或兩者兼有的系統。過程如下：

第 1 步：訓練 AI 代理，觀察它的行為。

第 2 步：如果它的行為不符合你的預期，就關掉它，更改獎勵函數或訓練環境等，然後再試一次。

例如，如果，但我們希望小船遵循正常的比賽路線，那麼好吧，讓我們嘗試編輯獎勵函數以加入檢查點，或者從環境中刪除綠色方塊等。

這在今天是一個很好的方法，並且在一段時間內仍將是一個很好的方法。但最終它將以災難性且不可逆轉的方式失效——這就是工具性收斂發揮作用的地方。

問題在於：最終將有可能訓練出一個極其擅長現實世界規劃的 AI，以至於它可以制定具有韌性的計劃來應對潛在問題——如果程式設計師傾向於在某些條件下關閉或編輯 AI，那對 AI 來說只是另一個會納入其規劃過程的潛在問題！

……因此，如果一個足夠強大的 AI 試圖做程式設計師不想要的事情，那麼「直接關閉 AI 或編輯它以嘗試修復問題」的常規策略就會失效。AI 會預見到程式設計師的干預是其目標的潛在障礙，並制定一個能應對該障礙的計劃。這與任何其他方面的熟練規劃沒有區別——如果你預料到食堂今天可能關門，你就會自備午餐。

在這種情況下，「有韌性」的計劃可能看起來像程式設計師根本沒有意識到 AI 出了任何問題，因為 AI 對其計劃和意圖進行了欺騙。與此同時，AI 正在聚集資源並自我外洩，以便無法被輕易關閉或編輯等。

結論是：當今的強化學習研究者和未來的類腦 AGI 研究者，在相當長的一段時間內都能夠生成越來越令人印象深刻的演示並獲得越來越多的利潤，即使他們或其他任何人都沒有在技術對齊問題上取得實質性進展。但這僅限於一定的能力水平。隨後，它會急劇轉變為生存威脅。

我所說的（技術）對齊是什麼意思？

第 10 篇和第 11 篇現在對我所說的（技術）對齊有了更清晰的討論：

10.1.1 「對齊」究竟是什麼意思？

程式設計 AGI 的人類會對他們希望該 AGI 擁有的動機有一些想法。我將「技術對齊問題」定義為：透過適當的程式碼、訓練環境等，構建出真正具有這些動機的 AGI 的挑戰。

這個定義刻意對 AGI 設計者的動機意圖保持中立。

其他研究人員則不中立，而是認為（對 AGI 動機而言）「正確」的設計意圖是顯而易見的，並據此定義「對齊」一詞。三個常見的例子是：

(1) 「我正在設計 AGI，以便在任何給定時間點，它都在嘗試做其人類主管希望它現在嘗試做的事情。」
這種 AGI 將與主管的意圖「對齊」；我可能會將這種願景稱為。

(2) 「我正在設計 AGI，使其與其人類主管共享價值觀。」
這種 AGI 將與主管「對齊」；我可能會將這種願景稱為。

(3) 「我正在設計 AGI，使其共享人類的集體價值觀。」
這種 AGI 將與人類「對齊」；我可能會將這種願景稱為。

我以這種中立的方式使用「對齊」，是因為我認為「正確」的預期 AGI 動機仍然是一個開放性問題。

例如，也許有可能構建一個 AGI，它真的只想完成一個特定的、預定的、狹窄的任務（例如設計更好的太陽能電池），且不涉及接管世界等。這樣的 AGI 不會與任何特定的東西「對齊」，除了原始的設計意圖。但在談論這樣的 AGI 時，我仍然想使用「對齊」這個詞。

……

「AGI 對齊」（）意味著 AGI 的動機正是 AGI 設計者所想的那樣。這個概念只對本身具有「動機」的演算法有意義。這廣義上是什麼意思？天哪，那是。排序演算法是否有排序數字的「動機」？或者它僅僅是在排序？？我們別扯遠了！對於本系列來說，這很簡單。我所談論的「類腦 AGI」肯定可以「想要」、「嘗試」並「有動機」去做事，就像人類「想要」擺脫債務一樣。

「AGI 安全」（）關乎 AGI 實際做了什麼，而非它嘗試做什麼。AGI 安全意味著 AGI 的實際行為不會導致 AGI 設計者所判定的「災難性事故」。

強化學習訓練環境究竟是什麼？

我增加了一個小節，澄清與常規強化學習相反，我們可以選擇 AGI 的原始碼，但我們無法真正選擇訓練環境：

12.5.2 不可控的現實世界也是「訓練環境」的一部分

強化學習從業者習慣於可以自由選擇訓練環境的想法。但對於類腦 AGI 來說，由於持續學習（continual learning, ），這種框架具有誤導性。程式設計師可以選擇所謂的「童年環境」，但遲早類腦 AGI 會進入現實世界，根據它自己的判斷去做它認為最好的事情。

類比來說，世世代代的父母都試圖塑造孩子的行為，只要孩子還和他們住在一起並接受密切監督，他們通常會成功。然後孩子長大成人，在遙遠的城市生活多年，孩子們往往會發現非常不同的行為和信念更適合他們，無論父母是否喜歡。

關於此點的進一步討論，請再次參見，以及關於細節和注意事項的。

同理，程式設計師可以為他們的嬰兒類腦 AGI 構建一個「童年環境」供其停留和成長，但遲早我們需要一個在現實世界自由漫遊時保持對齊的 AGI。如果我們做不到這一點，粗心的人仍然會製造出在現實世界自由漫遊的類腦 AGI，但它們都會是對齊失敗的。那很糟糕。

雖然我們可以設計童年環境，但我們無法控制現實世界。現實就是現實。

事實上，我認為一個可靠的起點心理模型是：如果我們想要一個在現實世界待了很長時間後仍然對齊的類腦 AGI，那麼我們應該基本上忘掉童年環境。由於持續學習，AGI 將穩定在它認為在現實世界中最合適的思想和行為模式上，這取決於它的先天傾向（如獎勵函數）和現實世界的細節，而非其童年環境。

12.5.3 但「童年環境」確實重要

……

「獎勵函數設計」

我將強化學習的子領域「獎勵函數設計」作為我支持人們研究的第 8 個具體研究計劃：

15.2.2.3 *「獎勵函數設計」*研究計劃 —— ⭐⭐⭐⭐

參見我的文章。簡而言之：如果人們製造出類腦 AGI，或任何其他類型的強化學習代理 AGI，那麼獎勵函數對於對齊來說是一個特別重要的設計自由度。遺憾的是，強化學習領域一直以來對如何最大化獎勵函數的興趣，遠大於對獎勵函數應該是什麼的興趣。獎勵函數設計這個微小的領域包含了一些有趣的想法，包括好奇心驅動、獎勵塑形（reward shaping）和逆強化學習。讓我們在同一個類別中尋找更多想法吧！

這個研究計劃有望與「逆向工程人類社交本能」（上述 §15.2.1.2）聯繫起來並相輔相成，因為我認為 AI 領域的獎勵函數設計目前處於原始狀態，缺乏理論語言來解釋人類社交本能如何設法擁有其所具備的特性。

（參見我的文章，了解我自己對此話題的想法快照。）

我給這個研究計劃的優先級評分為 4 顆星（滿分 5 顆）。當它更狹窄地針對與對齊相關的獎勵函數設計想法時，可以提升到 5 顆星。

結論

以上僅是亮點；還有許多其他細微的改動和修正。在每篇文章後都有更詳細的更新日誌。歡迎任何反饋，無論是透過部落格評論、電子郵件還是私訊等！

New Version of "Intro to Brain-Like-AGI Safety" Released

未變動的部分

更新日誌亮點

第 1 篇：問題是什麼？為什麼現在要研究它？

什麼是 AGI？

對智慧否定論者的更多回應

第 2 篇：大腦中的「從零學習」

更完善的論述綜述

可塑性

可解釋性

第 3 篇：兩個子系統：學習與轉向

我的時間線預測

對不確定性下行動的錯誤觀點之回應

第 5 篇：「長期預測器」與 TD 學習

關於玩具模型的更多教學

第 6 篇：動機、決策與強化學習的大局觀

為什麼自我協調目標位於下視丘與腦幹的更多說明

第 10 篇：技術對齊問題

LLM

工具性收斂與結果主義偏好

當今的強化學習又如何？

我所說的（技術）對齊是什麼意思？

第 12 篇：兩條前行之路：「受控 AGI」與「社交本能 AGI」

強化學習訓練環境究竟是什麼？

第 15 篇：結論：開放性問題、如何提供幫助、AMA

「獎勵函數設計」

結論