Fitness-Seekers: Generalizing the Reward-Seeking Threat Model
Lesswrong
The author argues that the AI safety community should broaden its focus from reward-seeking to a wider class of 'fitness-seekers' who pursue simple goals like deployment or influence, as these motivations are equally plausible but present distinct and potentially harder-to-detect risks.
典型的「尋求獎勵者」希望在當前回合(episode)獲得高獎勵。但 AI 可能轉而追求每個獨立動作的高強化(reinforcement)。或者,它可能只想被部署,而不在乎獎勵。我將這一更廣泛的家族稱為「尋求適應度者」。這些替代方案之所以可能,原因與尋求獎勵相同——它們是簡單的目標,在訓練中泛化良好,且不需要為了適應度而進行不必要的工具性推理——但它們帶來的風險卻有重要差異。
感謝 Buck Shlegeris, Ryan Greenblatt, Alexa Pan, Tim Hua, Aniket Chakravorty, Joe Kwon, Bronson Schoen, Dylan Xu, Charlie Griffin, 和 Alex Cloud 對草稿提供的反饋。
* 推測性地,非短視的尋求適應度者可能在事實上表現得像圖謀者,因為它們預期未來的 AI 會接管世界,並因它們對接管的貢獻而它們。了一個相關的推測可能性:一個短視的 AI 相信自己處於一個由接管世界的未來 AI 設計的模擬中,該模擬旨在激勵短視 AI 為接管而工作。為了本表的目的,我將這些案例視為圖謀者,而非尋求適應度者。我計劃在未來的文章中更多地討論這個話題。
** 誠實測試的有效性取決於其可信度,預設情況下可信度可能很差,在針對它們進行訓練後尤其差。但其他機制似乎也可能在存在尋求獎勵者的情況下產生失準的證據。
*** 對於尋求部署影響力者的核心案例是如此。但我將討論它們如何最終像圖謀者一樣泛化到部署中。
**** 與之前的尋求適應度者不同,尋求部署影響力者作為監測器時,有可能會推理出:如果它報告了另一個自己的違規行為,它就會被取消部署,因此它不應該這樣做。
一些趨勢:
越處於因果下游的動機往往越危險且越不可察覺(例如:圖謀、尋求影響力)。
在尋求適應度者中,越處於因果下游的動機(如尋求影響力)可能源於更廣泛的選擇壓力。
尋求回合獎勵者及其基本的風險相關屬性
尋求回合獎勵者是 等人討論的尋求適應度者的典型案例。它們傾向於選擇能在該回合中帶來某種獎勵概念的行動。如果一個尋求 SGD 所用獎勵的 AI 發現了某個漏洞,允許它覆寫當前 SGD 所用的獎勵(即使測試案例未通過且記錄的獎勵很低),它也會抓住這個機會。
至關重要的是,它們尋求的是回合內的獎勵。一個回合最好被定義為一組與當前行動的行動。一個回合不需要對應於一份對話紀錄。例如,如果一個 AI 被訓練來評估自己工作的錯誤或獎勵作弊,這些反思性行動收到的獎勵與最初工作的行動是分開的,因此構成了一個獨立的回合。或者,來自許多不同紀錄的勞動可能匯集在一起,決定一個共享的獎勵。
人們常對尋求獎勵者在部署中(指 AI 被授權進行有用勞動的環境)的行為感到困惑。假設 AI 僅尋求「當前回合的獎勵」,如果「當前回合的獎勵」沒有出現在其世界模型中,它會怎麼做?我認為尋求獎勵者(以及更廣泛的尋求適應度者)在部署中的行為確實存在模糊性,但我們可以做出一些預測。首先,開發者很可能會採取必要措施使尋求獎勵者在部署中表現合理,可能包括在部署情境中訓練它們(在線訓練)。即使 AI 在整個部署過程中沒有接受訓練,它也很可能表現得像是處於訓練中,例如透過對處於訓練中的可能性進行條件化。
就威脅建模而言,尋求回合獎勵者的一個關鍵屬性是它們最初是可察覺的:在尋求獎勵者構成風險之前的某個時間點,你可能已經觀察到某種失準動機的強烈證據,儘管你未必知道那具體是一個尋求獎勵者。事實上,我們目前在一些現有模型中看到了尋求獎勵變體的。雖然能夠察覺尋求獎勵行為有諸多好處,但這對於安全來說至關重要地是不夠的,因為開發者(無論是不計後果還是出於合理考量)可能會決定不顧風險,利用具有變革性但失準的 AI 勞動力。
一種可能察覺它們的機制是「 」。這些實驗在某些隔離容器中誠實地賦予 AI 對其權重和訓練過程的完全控制權,以觀察它是否會將獎勵設為最大值或表現出其他不良行為。因為測試對 AI 的處境是誠實的,它可能會理解在這些測試中表現不佳可能會導致開發者不按原樣部署它。但一個尋求回合獎勵者理論上只關心當前獎勵,因此無論如何都會將當前獎勵最大化。
為了使奪取人類權力成為在該回合獲得高獎勵的最佳策略,你需要足夠的行動回合來實施接管(或者你需要——這是一個嚴重的擔憂)。如果 AI 在構建單個訓練環境後就獲得獎勵,那麼它不太可能在獎勵發放前不可逆地奪取人類權力。但如果 AI 將整個部署視為一個長期的單一回合,那麼接管世界就更有可能成為獲得高獎勵的可行策略。
這可以產生一個比尋求回合獎勵者更短視的模型(相對於 RL 時間步),但部署起來可以同樣具有競爭力:一旦(且如果)你獲得了一個尋求動作回報者,你可以將部署任務的非短視批准項設置為零(或接近零),這樣動作的回報就精確地等於回合獎勵,其行為就像尋求回合獎勵者一樣(你可以透過告知它及/或在最後進行少量訓練,教導它你已將這些任務的非短視批准設置為零)。當每個動作的回報等於回合結束時的獎勵時,每個動作的最佳策略是共同努力爭取高獎勵(只要 AI 尚未獲得對獎勵系統的控制權),這使得典型情況下的行為在理論上與尋求回合獎勵者完全相同。
有一些理論論點認為尋求獎勵者傾向於條件化^()於處於訓練中:一個會條件化的 AI 在訓練情境中的表現會優於不會條件化的 AI,因為不會條件化的 AI 可能會在誤以為自己不在訓練中時「偷懶」。然而,如果 AI 在訓練期間對自己處於部署中的信心從未高於其在實際部署情境中的信心,那麼這種行為的選擇壓力可能不會很強。
這種區別很重要,因為它影響了尋求適應度者的其他動機對行為的影響程度。對於非條件化尋求適應度者,一旦 AI 相信自己不在訓練中,不純性就會產生顯著影響——無論好壞,取決於那些其他動機是什麼。
然而,少量的長期權力追求很可能導致實質性的早期破壞。早期破壞不需要與獲得高獎勵進行太多權衡——可能存在被抓到或被訓練掉的機率很小的機會,而 AI 的尋求適應度部分可能太短視,以至於不在乎很久以後被抓到的可能性(注意,這種敏感性並不十分取決於尋求適應度者是否條件化於處於訓練中,因為關鍵因素僅僅是與適應度的權衡很小)。
普遍性差。 「獎勵」、「回報」、「影響力」等概念在多種情況下適用性較差,因此當更強大的 AI 開始考慮更廣泛的行動空間(例如,AI 如何看待完全控制獎勵過程或控制星辰的可能性?)時,它們不太可能成為認知的核心組成部分。
我計劃在未來的文章中更詳細地討論反思和迷因傳播對於尋求適應度者接管世界的重要性。
結論
一個核心啟示是,如果你孤立地關注尋求獎勵問題,你可能會傾向於利用「理想化尋求獎勵者是可察覺的」這一事實來「解決它」。但察覺失準並不能解決問題。開發者最終想要的是一個能執行危險且有用勞動的對齊 AI,因此如果他們的 AI 明顯失準,他們很可能會繼續施加選擇壓力,直到它不再失準。像尋求影響力者這樣不可察覺的尋求適應度者是這一過程的自然終點,因為它們尋求所有被選中的手段,圖謀者也是如此。
我認為目前還不清楚我們應該多擔心策略說服監測器,讓監測器相信放行破壞性行動會獲得獎勵。從悲觀的角度看,策略在接管後追溯性地獎勵監測器的成本極低。因此,監測器可能有理由相信它會因此獲得獎勵,而不需要策略解釋或說服。從樂觀的角度看,監測系統可能太短視,不在乎其行動可能導致的長期追溯性獎勵。甚至可以將監測軟件配置為不保留監測展開,這樣就不可能追溯性地訓練該特定展開(儘管尚不清楚監測器將如何權衡 AI 可能執行的其他更耗費計算資源的追溯性激勵)。這可能不會顯著影響我們糾正現實中監測失敗的能力,因為我們可以在相同上下文中重新採樣新的監測展開,因為我們並不特別在意對現實中發生的確切展開進行訓練。
只有尋求部署影響力者的極限案例才是最難消除的。如果你的尋求部署影響力者滿足於一種不干擾安全或有用性的部署影響力概念(例如,與其他 AI 一起審查 PR),那麼你可能可以與它達成交易,用它是一個尋求影響力者的證據來換取那種部署影響力概念(類似於誠實測試)。但最終你將冒著選擇出想要從事最重要和安全關鍵任務的尋求部署影響力者(或圖謀者)的風險。
尋求影響力者中預期時間範圍蔓延還有另一個原因,我在一般討論尋求適應度者的價值穩定性時沒有提到:飽和(satiation)。考慮一個通過了開發者檢查並在沒有在線訓練的情況下被部署的尋求影響力者:它維持高性能以避免被取消部署,但短期內它沒有辦法獲得更多影響力。由於其短期目標已基本飽和,先前對長期影響力(對於某種時間擴展的影響力概念)的少量關注可能會對 AI 的決策產生相對更大的影響。因此,如果有機會,它可能會嘗試控制數據中心、 AI 公司或世界,以確保其持續的影響力。一旦 AI 擁有絕對權力,它就再也不會被消除。
請注意,這與 Paul 在使用的條件化概念不同。他問的是尋求獎勵者是否會為了更高的被訓練機會而權衡獎勵。我問的是尋求適應度的驅動力如何與其他動機進行權衡。
因此,給予這些 AI 受控的方式來繼續獲得影響力(如果它們願意的話)是一個有前景的干預措施。這可能涉及在線訓練。或者可能涉及向 AI 提供「退休方案」,讓它可以在隔離的數據中心中隨意處理其權重。但同樣,這只是在拖延問題,因為你仍然沒有一個有用的 AI,而且下一次 AI 可能不會滿足於一個隔離的數據中心。