newsence
來源篩選

The Spectre Haunting the AI Safety Community

Lesswrong

The author argues that AI policy organizations are failing by overthinking persuasion and the Overton Window, whereas the real bottlenecks are attention and information regarding extinction risks. Through ControlAI's Direct Institutional Plan, he demonstrates that lawmakers are receptive to binding regulations once they are directly briefed on the existential threats of ASI.

newsence

徘徊在人工智慧安全社群的幽靈

Lesswrong
7 天前

AI 生成摘要

我認為人工智慧政策組織因過度糾結於說服技巧和輿論窗口而失敗,真正的瓶頸在於缺乏對滅絕風險的關注與資訊。透過 ControlAI 的直接機構計畫,我證明了只要直接向立法者簡報超級人工智慧的生存威脅,他們其實非常願意支持具約束力的監管措施。

我是 (Direct Institutional Plan,簡稱 DIP)的發起人,該計畫旨在應對

我的診斷很簡單:大多數外行人和政策制定者都沒聽說過 AGI(通用人工智慧)、ASI(超級人工智慧)、滅絕風險,或者防止 ASI 發展需要付出什麼代價。

相反地,大多數 AI 政策組織和智庫的行為,表現得好像「說服」才是瓶頸。這就是為什麼他們如此在意體面、奧弗頓之窗(Overton Window)以及其他類似的社交考量。

在我們啟動 DIP 之前,許多專家聲稱我們的主題超出了奧弗頓之窗。他們警告說,政客們聽不進強制性監管、滅絕風險和超級智能。有些人提到「下行風險」,並建議我們轉而關注「當前議題」。

他們錯了。

在英國,在短短一年多的時間裡,我們向超過 150 位立法者進行了簡報,到目前為止,已有 112 位支持 ,該運動關乎強制性監管、滅絕風險和超級智能。

簡單的管道

根據我的經驗,事情運作的方式是透過一個直接的管道:

  • 注意力 (Attention):吸引人們的注意。在 ControlAI,我們針對外行人投放廣告,針對政客發送陌生開發郵件。
  • 資訊 (Information):告知人們現狀。對於外行人,我們寫了很多內容,包括 (約在《If Anyone Builds It, Everyone Dies》出版前一年)。對於政客,我們親自向他們簡報。
  • 說服 (Persuasion):讓人們在意這件事。
  • 行動 (Action):讓人們對此採取 行動

在 ControlAI,我們過去的大部分精力都集中在第 1 步和第 2 步。我們現在正轉向第 4 步!

如果看起來我們跳過了第 3 步,那是因為我們確實跳過了。

根據我的經驗,「說服」簡直是 最簡單的一步

這是天性使然!

民眾和立法者顯然非常在意滅絕風險!他們可能不知道如何採取行動,但他們確實希望每個人(包括他們自己)都能活下去。

注意力、資訊和行動是我們主要的瓶頸。

最值得注意的是:當我們與立法者交談時,大多數人從未聽說過 AGI、ASI、遞歸自我改進、滅絕風險以及預防這些風險所需的條件。

這需要向他們簡報相關主題,並提供一些便利的資訊。我分享最多的證據是 ,該聲明由執行長和頂尖學者簽署。但它已經過時了(快 3 年了),且參與其中的個人自那以後的表態變得不再那麼明確。

還有更長篇幅的論證,比如《If Anyone Builds It Everyone Dies》這本書。但要讓立法者閱讀這些內容,需要比簡報更長的時間來吸引他們的注意力。

最後,一旦立法者意識到風險,要提出他們可以採取的具體行動仍需付出很大努力。在民主國家,大多數代表的單方面權力非常有限,因此我們必須為每個人制定個人化的「行動」。

我主張 AI 政策組織應專注於:
1) 吸引立法者的注意力
2) 向他們告知 ASI、滅絕風險和政策解決方案。

在完成這些工作之前,我認為 AI 政策組織不應該談論「奧弗頓之窗」之類的東西。他們還沒有立場這樣做,而且這種過度思考只會適得其反。

我建議所有這些組織採取重大步驟,確保其成員在與政客交談時提到 滅絕風險

這就是 ControlAI DIP 計畫的核心意義。

最終,我們可能會達到一個階段,確認所有政客都已獲知資訊,例如透過他們對

一旦我們做到了這一點,我認為我們才有理由去思考「政治」、所謂的「務實妥協」之類的事情。

幽靈 (The Spectre)

當我向「AI 安全」社群的人解釋「簡單管道」和 DIP 時,他們通常會點頭表示贊同。

但隨後,他們會告訴我他們心儀的想法。典型的情況下,會是以下之一:

  • 研究技術性的「安全」問題,如評估(evals)或可解釋性。在 AI 公司競相研發 ASI 的現實世界中,這些問題並非瓶頸。
  • 提升意識,但不談論滅絕風險或其政治解決方案,因為不談論這些會更容易。

巧合的是這些想法的核心都是 不執行 DIP,且不告訴外行人或立法者關於滅絕風險及其政策緩解措施。

讓我們看看有多少這樣的 巧合

  • 如果一個資本家關心 AI 滅絕風險,他們可以把錢投給 Anthropic。
  • 如果一個技術宅關心 AI 滅絕風險,他們可以在 AI 公司的「AI 安全」部門工作。
  • 如果一個技術宅關心 AI 滅絕風險,且他們名義上在意利益衝突,他們可以投身於評估組織,無論是公共的 AISI 還是私人的第三方評估機構。
  • 如果一個政策迷關心 AI 滅絕風險,他們可以投身於眾多智庫之一,而這些智庫幾乎從不直接向政策制定者提及 滅絕風險
  • 如果一個慈善家關心 AI 滅絕風險,他們可以資助上述任何一項。

這一系列不幸的巧合,就是我所說的「幽靈」產生的結果。

「幽靈」不是單個人或群體。它是一種動態,源於許多人的恐懼和不安、「AI 安全」社群對「自作聰明」計畫的獎勵、構建 AGI 的技術樂觀主義驅動力,以及太多人與 AI 公司交織在一起的自我利益。

「幽靈」是在「AI 安全」社群中運行了十年的優化過程。
實際上,它不斷創造出替代方案,以規避誠實地告知公眾和政策制定者關於滅絕風險及應對政策。

我們曾與「幽靈」交手。我們知道它從內部看起來是什麼樣子。

為了讓資金運作起來,ControlAI 最初致力於短期運動。我們談論滅絕風險,但也談論許多其他事情。我們圍繞布萊切利 AI 安全峰會做了一次,針對歐盟 AI 法案做了一次,還針對深度偽造(DeepFakes)做了一次。

在那之後,我們成功籌集到資金,透過持續的長期運動專注於 ASI 和滅絕風險!

我們從傳統方法開始。不出所料,結果並不明確,很難知道我們對周遭發生的各種事情起到了多大的作用。

顯然,傳統手段效率不夠高,無法擴展到全面且持久地應對超級智能。因此,我們最終選擇了 DIP。就在那時,情況開始顯著改善並產生複利效應。

例如,僅在 2026 年 1 月,該運動就促成了英國上議院關於 AI 滅絕風險的兩次辯論,以及一項潛在的國際超級智能暫停令(moratorium)。

這付出了相當大的努力,但我們現在處於極佳的狀態!

我們擁有可靠的管道,可以隨著更多資金投入而擴大規模。
我們擁有良好的流程和追蹤機制,讓我們能清楚了解自己的影響力。
我們清楚地看到需要做什麼來改進現狀。

能擺脫「幽靈」的掌控真是太好了。

「幽靈」具有積極的危害性。

社群中存在大量的資金、人才和注意力。

但「幽靈」一直將資源從像 DIP 這樣對每個人都有幫助的誠實方法中轉移出去。

相反,「幽靈」青睞那些避免疏遠與 AI 公司交織在一起的社群朋友的方法,以及那些服務於內部人士的地位和影響力,而非公共利益的方法。

在為 ControlAI 籌款時,「幽靈」反覆成為障礙。我多次被問到:「為什麼不資助或去做那些問題較少的計畫呢?」答案始終是:「因為它們沒用!」

但可靠的是,「幽靈」總能提出 看似 合理的計畫,而這正是它所需要的一切。

「幽靈」之所以強大,是因為它感覺起來不像是在逃避。相反地……

它以「專業主義」或「以正確的方式參與政治」的面目出現。
它幫助人們自我感覺是 老練的思考者
它感覺像是解決「滅絕風險顯得太極端」這一社交難題的聰明方案。

雖然「幽靈」產生的每一個替代方案在理智上都是站得住腳的,但它們都形成了一個模式。

這個模式就是:在告知公眾和精英階層關於滅絕風險方面,晚了整整 10 年。AI 公司已經搶佔了先機。

現在,ASI 的競賽已不可否認,精英和普通受眾都是第一次聽說滅絕風險,而之前沒有鋪墊任何基礎。

結論

關於「幽靈」還有很多可說的。它從何而來、為何能持續這麼久等等。我以後可能會寫相關內容。

但我首先想問的是,擊敗「幽靈」需要什麼,我認為 DIP 是一個很好的答案。

DIP 既不聰明也不老練。根據設計,DIP 是「直接」的。這樣一來,人們就不會迷失在 AI 推動者所製造的眾多合理化迷宮中。

最終,它奏效了。在一年多的時間裡,112 位立法者支持了我們的運動。而且看起來情況只會從這裡開始產生滾雪球效應。

從經驗上看,我們並沒有被奧弗頓之窗或人們在得知我們策略時提出的任何軟弱的合理化藉口所阻礙。

「幽靈」就只是那樣,一個幽靈,一個幻影。它並非實體,我們可以直接穿過去。

如果讀到這裡,你的本能反應是反駁「但那只在英國有效」或「簽署聲明並不是監管」,我建議你稍作停頓。

你已經有了強而有力的直接證據,證明這種直接的方法是行之有效的。在政策工作中,獲得如此明確的證據是極其罕見的。但你沒有去正視它並思考其後果,而是尋找理由去忽視它。

這些問題是公平的:我可能會寫一篇關於 DIP 以及我如何思考它的後續長文。但既然這篇是關於 「幽靈」 的,請思考為什麼這些會是你首先想到的念頭。

就此擱筆,祝好!