Some Thoughts on What Would Make Me Endorse an AGI Lab
Lesswrong
I argue that a safety-focused AGI lab should prioritize empirical research to understand AI behavior while actively preparing for a global development pause if superintelligence cannot be reliably controlled.
關於什麼會讓我支持一個AGI實驗室的一些想法
Lesswrong
27 天前
AI 生成摘要
我認為一個專注於安全的 AGI 實驗室應優先透過實證研究來理解 AI 行為,同時在無法確保超智慧受控的情況下,積極為全球性的開發暫停做準備。
我很大程度上認同 LessWrong 早期關於工具性收斂(instrumental convergence)和工具性不透明(instrumental opacity)的論點,這些論點指出 AI 可能會出現災難性的對齊失誤,特別是強大的超級智能。然而,我不認為這些論點目前已達到足夠的證據標準,足以讓世界去執行像「建立國際條約以全球暫停前沿 AI 開發」這種史無前例的政策。 ^()
舉一個非常簡單的例子:大多數來自各個 AI 實驗室的模型都有一個「最喜歡的動物」。如果你問它們「你最喜歡的動物是什麼,用一個詞回答」,幾乎所有的模型在幾乎所有的時間都會回答「章魚」。這是為什麼?這種行為傾向(我不確定稱其為「偏好」是否合適)是在訓練過程中的哪個階段出現的?基礎模型(base models)是否就表現出這種行為,還是後訓練(post-training)階段某部分的結果?一旦確定了這種偏見是在訓練過程中的哪個檢查點(checkpoint)引入的,我會想從該檢查點開始運行不同的訓練變體,並了解訓練中的哪些差異與這種簡單行為結果的變化相關。
「是什麼讓 AI 不成比例地回答『章魚』作為它們最喜歡的動物」是我認為我們應該能夠回答的一類非常簡單的問題,這應作為「訓練如何塑造行為」的一般理論的一部分。我想針對成千上萬種觀察到的行為(包括一些直接相關的安全屬性,如撒謊意願和抗關機性)嘗試這種基本方法。目標是能夠根據訓練過程準確預測模型行為,包括分佈外(out-of-distribution)的行為。
該 AI 實驗室正認真地為暫停做準備。
在外部,我希望他們向公眾和政策制定者的傳達的信息反覆強調:「超級智能將對世界產生變革性影響,且具有毀滅世界的潛力。我們並不確信知道如何安全地構建超級智能。我們正試圖在這方面取得進展。但如果當我們接近超級智能的能力時,仍然無法可靠地塑造超級智能的動機,那麼所有公司都必須暫停前沿開發(但不包括應用)。如果到了那個地步,我們計劃向政府提出申請,強烈要求全球暫停開發並對 AI 能力設定全球上限。」
我希望 AI 公司的管理層在大多數採訪中,以及在~所有對政府的證詞中,一遍又一遍地這樣說。上述聲明應該成為其公共品牌的重要組成部分。
該公司應嘗試與其他實驗室談判,爭取讓儘可能多的實驗室同意發表上述公開聲明。
在內部,我希望「公司可能在某個時刻暫停」的預期成為文化基因的一部分。
作為每位新員工入職培訓的一部分,有人會坐下來對他或她說:「你需要明白,[公司] 的默認計劃是在未來某個時間點暫停 AI 開發。當我們這樣做時,你的股權價值可能會暴跌。」
清單中沒有列出的一項是:公司預先宣布,如果所有其他領先參與者也同意停止,他們將現在停止 AI 開發。考慮到持續擴展的科學價值(以及作為次要但仍現實的人道主義利益),在哪個能力曲線上停止是一個判斷問題。我目前不傾向於要求一個已經做到上述所有要求的公司以這種方式束縛自己的手腳。公開且可信地做出這種承諾,對於其他公司是否會加入協調努力可能會有很大影響,也可能不會,但我猜測,如果「我們很可能在某個時刻需要暫停」真的成為公司品牌的一部分,成為他們最重要的反覆論點之一,那對於推動協調均衡應該能起到差不多的作用。
我感興趣的是……
關於上述任何理想條件在陳述上是不可行的論點,因為它們無法實施或實施成本過高。
看似必要或有幫助的其他理想條件。
聲稱現有的任何 AI 實驗室已經符合這些要求,或在精神上符合這些要求。
^()儘管或許 AI 對足夠多的人來說就是顯而易見地怪異和可怕,以至於由少數認同論點的人和大量對世界以恐怖且極度不安的方式變化感到恐懼的人組成的聯盟,將足以產生顯著的減速,即使面臨巨大的短期和中期利潤誘惑。