AI安全的面紗終將破碎

Lesswrong

16 天前

AI 生成摘要

目前的 AI 安全工作只是一種基於「心理分析」與行為建模的虛假門面，當真正的超智慧出現時，這些針對原始實作缺陷的研究將會瓦解。真正的挑戰在於，我們必須在硬體與智慧之間的層級分離變得不可逾越之前，搞清楚一個「符合人類意願的超智慧系統」究竟長什麼樣子。

在超人工智慧（superintelligence）的前夕，真正的 AI 安全是一個不存在的領域。

AI 公司轉而擁抱了另一種東西：透過心理分析（因缺乏更合適的術語而暫稱之）來實現安全。他們的安全團隊為其 AI 構思各種測試場景，以了解 AI 「性格」的各種特質。他們甚至走得更遠，對 AI 條件行為的狹窄片段進行機械式解釋（mechanistically interpret）。

其工作假設是：對條件行為的詳細機械式知識進行心理分析，可以用來推斷出當他們的 AI 變得更強大時，應該預期會出現什麼問題的有用結論。

擁抱這種範式對於 AI 研究人員及其公司來說非常方便，讓他們在感覺上和行動上都像是對安全有所進展。不幸的是，雖然心理分析 / 機械式行為建模範式非常適合用來應付監管機構，並說服自己晚上能睡得安穩，但當超人工智慧到來時，它將化為塵土。

真正的滅絕級 AI 安全挑戰，也就是我們離在超人工智慧下生存還差得遠的原因，是另一回事——那是 AI 公司決定不再提及的事，因為這會暴露他們的 AI 安全努力只是一個令人震驚且不足的門面。

忽略整個 AI 心理分析 / 行為建模範式吧。那是一種干擾。相反地，請將注意力集中在層級分離（level separation）上：即智慧所做工作的本質，與 2026 年那些依然原始的智慧實現方式中愚蠢細節之間的對立。

真正的 AI 安全挑戰是在我們建造出一個不符合我們意願的超人工智慧系統之前，先了解一個「符合我們意願的超人工智慧系統」會是什麼樣子。我們在這個問題上幾乎沒有進展。唯一的爭議在於我們是否能以某種方式混過去——在時間耗盡或犯下致命錯誤之前，循序漸進地解決問題。

讓我解釋為什麼真正的 AI 安全挑戰與那個虛假的挑戰不同。

你有沒有注意到，現代運算應用程式的行為，與電晶體執行布林邏輯工作的愚蠢細節完全沒有關係？這是因為現代電腦是運算（computation）這一抽象動態相對成熟的實現。它們的層級分離非常強大。

另一方面，由真空管、繼電器或生物神經元組成的電腦，是運算極其原始的實現，以至於它們的愚蠢細節確實會洩漏到其高階行為中。它們的層級分離非常微弱。

考慮一下人類大腦，一個極其不嚴肅的通用運算平台實現。你告訴我這是一台由活細胞和化學神經傳導物質組成的電腦？與現代運算電子設備相比，我們頭顱中這個奇異的生物龐克（biopunk）運算引擎簡直就是用牙籤和棉花糖搭成的結構。

將大腦視為一種可以用來推斷嚴肅電腦屬性的模型是不正確的。相反地，我們必須將大腦視為物理實現電腦這一類別中可能性的下限。

大腦作為「最低可行性電腦」和「最低可行性智慧」的地位，正是為什麼硬體與心理分析之間、以及心理分析與智慧（引導結果的能力）之間的層級分離在我們身上是微弱且可滲透的。這就是為什麼心理分析和對條件行為的機械式知識，在預測人類行為的努力中是有用的工具，就像在預測未來幾代依然接近最低可行產品（MVP）的 AI 會做什麼的努力中一樣。

如果用「看吧，人類只是在做適當電腦上的適當演算法會做的事」來駁斥心理學家是不對的，因為大腦作為電腦的實現規格太不嚴肅，使得抽象層太容易洩漏：

短期記憶：1kb
每秒最大序列步驟：20
最大連續作業長度：40 小時
最大加速向量幾何維度：3
原生浮點運算表示寬度：5 bits
原生功利計算中的最大因果節點：7

但當實現方式變得更好時，抽象層就不再洩漏了。

研究讓一種不嚴肅的電腦物種在世界上生存的下限是引人入勝的；關於「地板」有很多值得學習的地方。但地板並非全部。如果你只研究地板，你就不會注意到事物何時起身飛翔。

對今天的 Claude 進行狹隘的分析——這在世界上公認的頂尖安全組織中被視為其非滅絕策略的核心工作——其實是在挖掘可愛又古怪的實現細節。這相當於說：「哈哈，我們讓這個人類受試者做出了一個選擇，暗示他們對 300 隻鳥的偏好強於對 10^6 個人的偏好，因為這個古怪的小傢伙系統性地將數量存儲為神經權重，以至於忘記了它們的指數 😂」。

在那個迅速接近的世界中，這些心理分析式的結果將變得完全無關緊要。在那個世界，我們從真空管電腦的類比進化到印刷電路板上的電晶體電腦類比——在那個世界，成熟的智慧實現將會登場，其成熟體現在現實世界的結果引導（outcome steering）測試中展現出絕對的超人性能。

我們正走向一個世界，在那裡，描述 AI 所做工作的抽象層（強大的通用目標到行動的映射）與該抽象層的實現細節（AI 公司為了在不久的將來解鎖下一梯隊性能而投入其中的任何架構元素）之間的層級分離屏障將變得強大。

正如我們在運算引擎（以及其他各種類型的引擎）的實現上提升到了嚴肅與成熟的程度，我們也將在結果引導引擎的實現上提升到嚴肅與成熟。

未來 AI 的結果引導效應將失去任何可辨識的「風味」或「性格」，這些特質曾從與「實現為何尚未達到穩健超人水平」相關的細節中洩漏出來。即使是試圖探測 AI 的「機械式可解釋條件行為」，除了將 AI 建模為一個結果引導引擎之外，也不會提供任何預測能力。

我們不會透過詢問電晶體中電力的行為來預測現代電腦會做什麼，儘管這是電腦發展初期工程師們的標準做法。因為層級分離到來了。

層級分離即將到來。

但沒有人表現得像是它即將到來。沒有人談論成熟的結果優化器到來的那一天，在那一天，讓舊版 Claude 抽象層洩漏的愚蠢怪癖將失去預測能力，而我們唯一能處理的只有抽象層平滑的表面：

它們比人類更能引導結果。

這就是幾年內即將發生的事。但絕大多數的 AI 安全研究都是心理分析。這些都無濟於事。

而且沒有 B 計畫。沒有人在唯一的穩健抽象層級上研究「如何保持對一個比你更能引導結果的事物的控制」這個問題。心理分析就是那個計畫。

這是一個完美的門面。它讓研究人員、高管和政策制定者感到寬慰，覺得「AI 安全計畫」這一項已經勾選。只是當超人工智慧到來時，它起不了任何作用。

The Facade of AI Safety Will Crumble