newsence
來源篩選

If You Don't Feel Deeply Confused About AGI Risk, Something's Wrong

Lesswrong

Many AI safety and governance researchers lack a first-principles understanding of AI risk, often deferring to authority due to structural pressures like short fellowship timelines and the need for legible outputs. It is crucial to move beyond 'absorbing vibes' and develop a gears-level internal model to ensure research actually addresses the most critical existential threats.

newsence

如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了

Lesswrong
7 天前

AI 生成摘要

許多人工智慧安全與治理研究人員缺乏對 AI 風險的原創性理解,往往因為實習時間緊迫或追求具體成果等結構性壓力而盲從權威。我認為我們必須擺脫「只感受氛圍」的狀態,建立起一套底層邏輯清晰的內部觀點,才能確保研究真正有助於降低生存風險。

認識論狀態:我已經思考這件事好幾個月了,終於把它寫了下來。我不認為我說的是什麼新觀點,但我認為這值得大聲重複強調。我的樣本偏向 AI 治理研究員;我與技術性 AI 安全研究人員的互動較少,所以在那方面的推論較為模糊。我更強烈地向治理圈推薦這個論點。

我曾與來自 ERA、IAPS、GovAI、LASR 和 Pivotal 等計畫的約 75 位研究員進行過一對一交流。這些交流涵關職涯談話、研究回饋和隨性聊天。我注意到在這些對話中,有一定比例會逐漸轉向高層次且棘手的問題:「對齊(alignment)實際上到底有多難?」、「極端的權力集中實際上到底有多糟?」

在這些對話快結束時,我通常會說類似這樣的話:「我不知道,這些問題超級難,我也很難取得進展。當我試著去解決它們時,我感到極度的認知疲勞,這讓我感覺很糟,因為我覺得我自己的研究和他人的研究,很大程度上都建立在這些問題的答案之上。」

然後我會羞怯地推薦 Holden 關於的文章。接著我會告訴他們,去真正地做「那件事」。

那件事

我所謂的「那件事」,是指建立一種基於第一性原理的理解,明白你為什麼相信 AI 是危險的,以至於你可以在不訴諸權威的情況下,從零開始重構這個論點。具體來說,這可能看起來像:

  • 能夠以的深度,連貫地引導某人理解至少一個 AI 生存風險(x-risk)威脅模型。
  • 能夠很好地模擬一位頂尖對齊研究者的世界觀,以至於你可以預測他們對新問題的看法。
  • 寫下你自己的威脅模型,並留意你在哪裡卡住、在哪裡感到困惑、在哪裡盲目聽從他人。

我認為 AI 安全/治理計畫中很大一部分的研究員無法做到上述任何一件事。典型的原型如下:

如果這描述的是你,你可能屬於最常見的那一類。就這點而言,這個原型基本上就是我,所以我也帶有一點投射!

為什麼會發生這種情況

我認為 AI 安全/治理研究員的預設軌跡大致是:吸收氛圍、選擇一個專案、執行、產出成果。「退後一步並建立第一性原理理解」的階段被跳過了,而這被跳過是有其可預測的結構性原因:

  • 時間壓力。 研究計畫通常只有 8 到 12 週。這點時間勉強夠啟動一個研究專案,更不用說質疑你的基礎假設了。沒有時間,只能衝刺、衝刺、再衝刺!
  • 導師制度結構。 大多數計畫會為你配對一位擁有特定研究議程的導師。隱含(有時是明確)的交易是:研究我議程中的內容。這對於學習研究技能通常很棒!但這與「我花了三週時間質疑這整個框架是否正確」並不相容。誘因是成為一名優秀的受導者,這意味著執行一個範圍明確的專案,而不是去扯動基礎的線頭。不過這並不總是發生——似乎有相當一部分導師讓他們的研究員大致想做什麼就做什麼。
  • 可辨識性的誘因。 參與計畫的目的是為了找到工作!一份具體的論文或報告是清晰可見的,這對未來的雇主來說是一個非常有用的信號。在求職過程中,很難僅憑「我對對齊何時變得困難有了更細緻的理解」就過關(儘管我認為擁有良好招聘實踐的組織會積極獎勵這樣的聲明!我不確定是否所有組織都如此,但我感覺篩選這些特質很困難)。
  • 社交壓力。 參加一個精英 AI 生存風險計畫,卻告訴你的同儕、主管或導師:「我不知道為什麼人工超智慧(ASI)會構成生存風險」,會讓人感到極度不安。在溝通困惑這件事上存在一種逆向選擇:最困惑的人最不可能說出來,因為說出來感覺就像在承認自己不屬於這裡。

話雖如此,我認為一個合理的反論是:也許建立內部觀點(inside view)的最佳方式就是直接做大量的研究。如果你只是與優秀的導師密切合作、進行實驗、碰壁,那麼齒輪層級的理解自然會產生。

我認為這種觀點部分正確。許多研究人員是透過研究過程,而不是在研究之前,發展出他們最好的直覺。而且,一個向人們施壓要求產出的計畫,在邊際上可能比一個產出 30 個極度困惑的人卻零論文的計畫要好。我不想過度修正。正確的答案可能是「更多的平衡」,而不是「消除論文/報告的產出壓力」。

為什麼這很重要

在大多數研究領域,不做「那件事」也沒關係。你可以成為一名高效的化學家,而不需要對化學為什麼重要有第一性原理的理解。化學是成熟且有典範的。做有用工作的演算法很簡單:弄清楚什麼是已知的,弄清楚什麼是未知的,對未知事物進行實驗。

AI 安全並非如此。我們不只是在推進知識的邊界。我們是在一個仍處於前典範(pre-paradigmatic)階段、回饋循環極差且基本問題仍未解決的領域中,試圖進行最有機會降低毀滅機率(P(doom))的研究。如果你在做對齊研究,卻無法清楚說明為什麼你認為對齊很難,那你就是在一個你未曾檢視過的基礎上建築。你無法判斷你的專案是否真的重要。你正在優化一個你無法證成其合理性的指標。

你可以透過單純聽從 80,000 Hours 和 Coefficient Giving 的建議來維持一段時間。但聽從他人是有上限的,最有影響力的研究者是那些建立了自己模型並找到超額價值(alpha)所在的人。

而且我擔心這個問題會隨著時間推移而惡化。隨著我們越來越接近 ASI,在不退後一步的情況下推進研究議程的壓力只會加劇。迫切感會排擠好奇心。而這個領域將在最的時候變得日益脆弱。

你該怎麼做?

如果你對 AI 風險沒有感到深切的,那就有問題了。 你可能還沒有並正視你的假設。好消息是有具體的事情可以做。壞消息是沒有一件是容易的。它們都需要密集的認知投入和時間。

  • 策略 1:從零開始寫下你自己的威脅模型。 坐在空白文件前,試著寫出一個連貫的論點,說明為什麼 AI 會構成生存風險。不要參考資料。就寫下你真正相信什麼以及為什麼。你會卡住。你卡住的地方就是你從這個練習中能獲得的最有價值的資訊。那些就是你一直盲目聽從他人的關鍵假設。一旦識別出它們,你就可以真正去調查它們。
  • 策略 2:學習模擬資深研究者。 挑選一位有大量公開寫作的人(例如 Paul Christiano、Richard Ngo、Eliezer Yudkowsky、Joe Carlsmith)。每週花大約 5 小時非常仔細地閱讀他們的作品,並做大量的筆記。保持一份記錄你所有開放性問題和不確定性的文件。目標是能夠預測他們對新問題會說什麼,並且關鍵是要理解他們為什麼會這麼說。這與建立你自己的內部觀點不同,但它是一個有用的補充。透過試圖進入別人的模型,你可以學到很多關於問題結構的知識。
  • 策略 3:設定一個具體的「減少困惑」目標。 在計畫結束時,你應該能夠向該領域之外的聰明人連貫地解釋至少一個 AI 生存風險威脅模型。不是「AI 可能很危險,因為 Eliezer 這麼說」,而是一個實際的機制故事。如果你在密集參與 AI 安全 8 到 12 週後仍無法做到這一點,這是一個值得注意的信號。

對於計畫負責人和研究主管,我建議為此留出空間。^() 一件可能有用的事是,除了人脈建立和研究等常規目標外,鼓勵研究員設定一個像我上面描述的那樣具體的「減少困惑」目標。

結語

我不希望這篇文章讀起來像是「你應該感到愧疚」。重點是,在這個領域中,困惑被低估且供應不足。意識到你無法從零開始重構你的信念本身並不是失敗。只有當你對此無動於衷時,它才是糟糕的!

我自己也還在努力解決這個問題。我想許多其他人也是如此。

  • ^()雖然我假設計畫負責人已經注意到了這個問題並嘗試解決,但結果發現解決它很困難。