If You Don't Feel Deeply Confused About AGI Risk, Something's Wrong
Lesswrong
Many AI safety and governance researchers lack a first-principles understanding of AI risk, often deferring to authority due to structural pressures like short fellowship timelines and the need for legible outputs. It is crucial to move beyond 'absorbing vibes' and develop a gears-level internal model to ensure research actually addresses the most critical existential threats.
如果你對 AGI 風險不感到深切困惑,那一定有什麼地方出錯了
Lesswrong
7 天前
AI 生成摘要
許多人工智慧安全與治理研究人員缺乏對 AI 風險的原創性理解,往往因為實習時間緊迫或追求具體成果等結構性壓力而盲從權威。我認為我們必須擺脫「只感受氛圍」的狀態,建立起一套底層邏輯清晰的內部觀點,才能確保研究真正有助於降低生存風險。
認識論狀態:我已經思考這件事好幾個月了,終於把它寫了下來。我不認為我說的是什麼新觀點,但我認為這值得大聲重複強調。我的樣本偏向 AI 治理研究員;我與技術性 AI 安全研究人員的互動較少,所以在那方面的推論較為模糊。我更強烈地向治理圈推薦這個論點。
AI 安全並非如此。我們不只是在推進知識的邊界。我們是在一個仍處於前典範(pre-paradigmatic)階段、回饋循環極差且基本問題仍未解決的領域中,試圖進行最有機會降低毀滅機率(P(doom))的研究。如果你在做對齊研究,卻無法清楚說明為什麼你認為對齊很難,那你就是在一個你未曾檢視過的基礎上建築。你無法判斷你的專案是否真的重要。你正在優化一個你無法證成其合理性的指標。
如果你對 AI 風險沒有感到深切的,那就有問題了。 你可能還沒有並正視你的假設。好消息是有具體的事情可以做。壞消息是沒有一件是容易的。它們都需要密集的認知投入和時間。
策略 1:從零開始寫下你自己的威脅模型。 坐在空白文件前,試著寫出一個連貫的論點,說明為什麼 AI 會構成生存風險。不要參考資料。就寫下你真正相信什麼以及為什麼。你會卡住。你卡住的地方就是你從這個練習中能獲得的最有價值的資訊。那些就是你一直盲目聽從他人的關鍵假設。一旦識別出它們,你就可以真正去調查它們。
策略 2:學習模擬資深研究者。 挑選一位有大量公開寫作的人(例如 Paul Christiano、Richard Ngo、Eliezer Yudkowsky、Joe Carlsmith)。每週花大約 5 小時非常仔細地閱讀他們的作品,並做大量的筆記。保持一份記錄你所有開放性問題和不確定性的文件。目標是能夠預測他們對新問題會說什麼,並且關鍵是要理解他們為什麼會這麼說。這與建立你自己的內部觀點不同,但它是一個有用的補充。透過試圖進入別人的模型,你可以學到很多關於問題結構的知識。
策略 3:設定一個具體的「減少困惑」目標。 在計畫結束時,你應該能夠向該領域之外的聰明人連貫地解釋至少一個 AI 生存風險威脅模型。不是「AI 可能很危險,因為 Eliezer 這麼說」,而是一個實際的機制故事。如果你在密集參與 AI 安全 8 到 12 週後仍無法做到這一點,這是一個值得注意的信號。