newsence
來源篩選

Analysis of Anthropic's Responsible Scaling Policy v3.0

Lesswrong

I am sharing my personal perspective on Anthropic's RSP v3.0, arguing that moving away from rigid, binding commitments toward a more flexible, iterative framework is essential for effectively reducing AI risks in a rapidly changing environment.

newsence

Anthropic 負責任縮放政策 3.0 版本深度分析

Lesswrong
4 天前

AI 生成摘要

我正在分享對 Anthropic RSP 3.0 版本的個人見解,並主張從僵化且具約束力的承諾轉向更具彈性、可迭代的框架,對於在快速變化的環境中有效降低 AI 風險至關重要。

以下內容僅代表我個人觀點,不代表 Anthropic。本文以 Anthropic 發布的 RSP 3.0 為背景。

今天,Anthropic 發布了其《負責任擴展政策》(Responsible Scaling Policy, RSP)3.0 版。官方討論了其背後的高層級思考。這是一篇更詳細的文章,分享我個人對這次更新的看法。

首先,從大局來看:

  • 我預期有些人會對背離「硬性承諾」或「把自己綁在桅杆上」(binding ourselves to the mast)的氛圍感到不滿。(Anthropic 一直有權修訂 RSP,且我們始終在條款中明確標註,若其他 AI 開發者未遵守類似承諾,我們可能會修訂掉關鍵承諾。但人們很容易產生一種印象,認為 RSP 是在「把自己綁在桅杆上」,承諾在某些條件下單方面暫停 AI 開發與部署,Anthropic 對此負有責任。)

  • 我對這次變動負有重大責任。過去一年左右,我一直在推動這項變革,並主導了新版 RSP 的開發。我支持我們所做變動的幾乎所有內容。我對「路線圖」(Roadmap)、「風險報告」(Risk Reports)、轉向外部審查,以及解除一些我認為扭曲了我們安全努力的舊要求感到興奮(詳見下文)。

  • 我認為這些變動對於降低 AI 風險是正確的,無論是來自 Anthropic 還是其他公司(如果他們也做出類似變動,我希望他們會這麼做)。

  • 在我心中,這次修訂並非因為「當前 AI 系統的災難性風險已經很高」(我不這麼認為),也不是因為「我們剛意識到足夠的監管看起來不太可能實現」(我認為這並非最近才有的認知)。在我看來,這首先是關於從設計缺陷中學習並做出改進。

  • 我一直將原始 RSP 視為會不斷迭代的「v1」,看到它在多大程度上被解讀為「神聖不可侵犯」或「把自己綁在桅杆上」,以至於向「減少自我約束」方向的修訂被許多人視為本質上的不名譽,這讓我感到挫折。如果我當初認為未來的變動會被這樣看待,我會推動一個非常不同(且野心小得多)的初始設計。

  • 我通常認為,創造一個鼓勵人們害怕犯錯、害怕承認錯誤、並對改變行不通的事物感到遲疑的環境是不好的。我認為這種動態目前在某種程度上適用於類 RSP 政策,我希望這種情況能改變。

  • 我並不是希望人們對每次修訂都聳聳肩說:「嘿,這是你們的政策,想怎麼做就怎麼做。」我希望人們能單純根據優點來評估變動是否良好,而不要預設「變動本身」就是壞事或好事。改變好的政策應該是因為壞的理由而困難,而不是因為任何理由改變任何政策都很困難。

  • 我認為很多人有一種心態,像是:「我擔心 AI 公司在關鍵時刻會做錯誤的事,所以我希望他們盡可能僵化且緊密地約束未來的行動;模糊且靈活的政策只會給動機性推理留下更多空間。」我認為這在一定程度上有其道理,但也有另一面:世界(尤其是 AI 世界)變化極快,對未來的約束性承諾可能會讓你受困於對安全並無實質好處的事情,並使你難以根據實際情況進行調整和有效分配資源——這種動態存在著優先級錯誤、古德哈特定律(Goodharting)以及普遍的厭煩與反彈風險,我認為這非常值得關注。我一直意識到後者的問題,並試圖謹慎對待值得做出哪種承諾,但我現在更傾向於認為,要做好約束性承諾比我預想的更難,而那些在許多人看來模糊得令人沮喪的政策,在正確的背景下實際上能產生巨大的影響。

  • 我認為對 RSP v3.0 的普遍態度是:「我勉強明白為什麼這是必要的,我最終也同意這些變動是需要且合理的,但我對此感到難過。」這不是我的態度。我對我們所處的政治環境感到難過,但將這個並非最近才出現的現狀視為既定事實,我對新版 RSP 感到由衷的興奮。我認為舊版 RSP 在某些方面做得非常好,但也產生了一些似乎未被廣泛理解的負面效應,且隨著 AI 系統能力增強,這些效應有大幅增長的風險(詳見下文)。我認為新版更好,最終將成為更有效的風險降低力量。(我不認為任何政策能在自願基礎上將風險維持在低水平。)我確信這個 RSP 也存在問題,未來某個時點可能會有包含更多變動的 RSP 4.0,但我確實認為我們正在學習什麼行得通、什麼行不通,希望這些政策能不斷增加正面影響並減少負面影響——只要我們能將其視為「進行中的工作」而非神聖不可侵犯的教條。

我想透過講述 RSP 自誕生以來的演變與影響(好的與壞的)故事,最容易理解我的觀點。這將涵蓋最初的目標是什麼、我們最初為何採取那種方式、那種方式哪些部分進展順利,以及哪些部分不順利,進而促成了我們現在的變動。

之後是常見問題(FAQ)部分。

起源:RSP 的原始目標

2023 年,我與 METR 合作開發並推廣了「負責任擴展政策」的基本概念。我們當時嘗試做的事情在 中有很好的體現。今天,我將目標大致總結如下(請將此視為我個人對 RSP 目標的思考,而非 METR 或其他任何人的觀點):

目標 1:為 AI 開發者創造強制機制,使其能帶著緊迫感行動並專注於風險緩解。 核心想法是:如果一家公司的政策規定,除非具備 Y 風險緩解措施,否則訓練具有 X 能力水平的 AI 模型是不安全的,那麼希望該公司會非常努力地落實這些風險緩解措施。這不依賴於承諾是否鐵定不變,而僅依賴於類似「如果未能達到公司聲稱正在努力達成且與安全 AI 開發相關的標準,將會令人尷尬,而公司會努力避免這種尷尬」。

目標 2:為可納入政策框架的實踐與政策創造試驗場。 核心想法是:如果許多主要的 AI 開發者都採用了風險緩解措施 Y,且/或同意風險緩解措施 Y 對安全至關重要,那麼這將使監管要求或引導風險緩解措施 Y,或將其作為 AI 開發或部署的門檻,在政治和實踐上都變得更容易。同樣,這不依賴於承諾是否鐵定不變——目前行業廣泛實踐且/或公開支持的任何特定風險緩解措施都能產生政策影響。

(具體一點:我希望如果降低 AI 風險的政治意願最終變強,那麼公司的自願實踐與政策將被視為監管的「底線」;而如果政治意願較弱,這些可能是我們能獲得的最佳結果。)

目標 3:致力於就 AI 風險與潛在緩解措施達成共識與共同知識。 當時人們對評估 AI 系統的雙重用途/危險能力已有很大興趣,但我們希望 RSP 能增加將能力與「威脅模型」掛鉤的努力,並普遍提高關於 AI 系統是否變得危險的共同知識水平。

並非核心目標:促成 AI 開發的大規模、自願性(非監管支持的)暫停。 當時,許多人似乎認為這是我們的目標,並以 RSP 計劃看起來不切實際為由進行批評。雖然我不認為少數 AI 開發者(如果他們遠領先於所有人)因這類政策而放慢 AI 開發速度是完全不可能的,但這從來不是主要希望,也不是實現上述其他目標的必要條件。

逃生條款(Escape clauses)。 METR 關於 包含了這段內容:

如果 RSP 減慢了採用它們的公司,但其他人卻在狂奔怎麼辦?

RSP 可能無法降低風險——甚至可能增加風險——的一種方式是導致以下動態:「謹慎的 AI 開發者為了避免風險而最終減慢速度,而不謹慎的 AI 開發者則盡可能快地前進。」

開發者可以透過在 RSP 中寫入靈活性來降低這種風險,思路如下:

  • 如果他們認為其他參與者持續擴展帶來的風險高到無法接受,且他們已窮盡其他防止這些風險的途徑(包括密集倡導監管行動),那麼在某些情況下,他們可能會繼續自行擴展——同時繼續與國家或其他機構合作,採取能影響所有 AI 開發者(包括他們自己)的立即行動來限制擴展。
  • 在這種情況下,他們應該向員工、董事會和國家機構明確表示,他們正在援引此條款,且其擴展不再安全。他們應該明確表示 AI 系統(包括他們自己的)存在立即的(而非未來假設的)災難性風險,並應對繼續進行的決定負責。

具有這種靈活性的 RSP 仍會要求對危險能力進行嚴格測試。它們仍會要求優先採取保護措施(以避免必須明確推進危險的 AI)。而且它們仍將是邁向更嚴格的基於評估的規則與規範的第一步(如前一節所述)。

事後看來,我認為這段文字高估了能力評估能多好地向世界告知 AI 風險,低估了描述的「灰色地帶」問題,且/或普遍高估了決策者對「在證明安全之前假設 AI 是危險的」態度的政治意願與胃口。^() 例如:2025 年 5 月,Anthropic ,因為它覺得自己再也無法提出足夠強的理由證明相關風險是的——但九個月後,儘管投入了巨大努力,包括資源充足的隨機對照試驗(結果即將公布),我們仍然缺乏令人信服的證據證明風險是的。因此,我認為想像存在一條單一的「風險線」,我們能在足夠早的時候跨過它,既能防止公司施加重大風險,又能在足夠晚的時候讓密集倡導全球行動有現實的成功前景,這是一個錯誤。

如果我今天來寫這段話,我會淡化關於「高到無法接受」/「立即風險」的措辭,但我仍然相信:

  • 當其他人不放慢速度時,讓負責任的參與者單方面放慢速度是不好的,這也不符合我現在(以及過去)所見的 RSP 模型。
  • 即便沒有這一點——也沒有上述「危急」的措辭——RSP 僅透過闡明公司認為如何才能降低風險,就能在服務於上述目標 1-3 方面發揮很大作用。

現狀:好的與壞的

在 Anthropic 首次採用 RSP 約一年後,我開始花大量時間就公司執行及改進 RSP 的努力提供建議,並於 2025 年 1 月全職加入 Anthropic,將 RSP 作為我的主要工作重點。從那時起,我對舊版 RSP 的優缺點產生了許多看法。

關於我對此話題基本取向的說明

在深入探討我認為哪些進展順利或不順利之前,值得先說明我在處理這個基本話題時與某些人的高層級差異。

我認為有些人腦中的圖景大致如下(請原諒我的過度簡化):「公司做出的承諾越嚴格、越不妥協越好。我們在這裡不是要『在商業目標與降低風險之間取得平衡』,因為我們不看重商業目標。我們不信任公司會做正確的事,所以任何特定時間點設定好的、看起來不錯的行動越是板上釘釘越好。」

我不這麼看。我認為我們應該嘗試在每單位商業痛苦中獲得最大的風險降低,或者類似的衡量標準——這不是因為我本質上重視商業目標,而是因為我認為「平衡」的態度最終對降低風險更有利。

如果 RSP 最終推動的風險緩解措施需要投入巨大工作量,且/或為了微小的安全利益而施加巨大的商業成本,那麼它們就有以下風險:

  • 損害真正以安全為導向的公司或公司內部安全導向人員的靈活性(這些人通常承擔了 RSP 創造的大部分工作,並面臨從首要任務轉向 RSP 合規的風險)。
  • 導致「古德哈特定律」:當一項風險緩解措施在執行者看來普遍不合理時,人們可能會密集地嘗試滿足其字面要求而非精神。
  • 成為反彈的目標,使廣大群體對 RSP 和普遍的安全工作產生反感。

如果存在強大且廣泛的政治意願,將 AI 視為核能並為了保持低風險而任意放慢速度,情況可能會有所不同。但這不是我們現在所處的世界,我擔心「過度擴張」代價高昂。

考慮到這一點,我傾向於認為這類政策中的任何僵化承諾都是一把雙刃劍:

  • 如果能成功預測未來並做出正確的承諾,其好處是讓以後「做錯誤的事」變得更難。
  • 如果不能,這會讓做正確的事變得更難,導致上述問題。

我們對闡述一個穩健且良好承諾的信心越低,就越應該擔心承諾最終會麼推動公司採取錯誤行動,要麼推動他們採取在真空中是正確的(如果所有人只關心風險降低的話)、但在現實中卻呈現出不成比例的權衡(為了微小的風險降低利益而付出巨大的商業「痛苦」),從而導致反彈和失去公信力。

同樣值得注意的是,我的目標通常是尋找在邊際上降低風險的方法。我不會透過「邏輯成功曲線」來模擬我們的處境,即我們麼實施比目前任何人預期都要好得多的安全措施,麼就~註定失敗。我對 RSP 的希望一直是,且現在也是,它們將增加並改進風險緩解工作,包括以漸進的方式。(我詳細闡述了這一觀點。)

目標 1:改進風險緩解的強制機制

部分成功的案例:針對特定關注用途的越獄魯棒性,符合 ASL-3 部署標準

我相信,Anthropic 在其模型對越獄的魯棒性方面(針對特定的關注用途,由額外的魯棒分類器定位)達到了一個水平,如果沒有類似 RSP 的機制,它是無法達到的。

雖然這裡的潛在危害(AI 協助新手製造化學和生物武器)並不屬於我預期本文讀者最關心的最高風險類別,但我認為我們為實現這一目標而建立的一些能力,對於未來我們可能嘗試實現針對濫用的魯棒防禦具有廣泛用途。更廣泛地說,我當然認為這個案例證明了 RSP 可以驅動一家公司完成它在風險緩解方面原本不會完成的事情。

這部分與(Constitutional Classifiers)的開發有關,研究人員優先考慮這一點很大程度上是因為 RSP 創造了實現越獄魯棒性的壓力。^() 但很大程度上這更多是關於在公司內部達成共同知識與協調。即便要實現中等程度的越獄魯棒性,也需要涉及公司許多不同部門的許多事情發生,每個部門都有不同的彙報線、人員、優先級、信念等。除此之外,它還需要 (a) 將相關的分類器防護集成到生產系統中;(b) 嘗試讓這些系統在運行足夠強的分類器防護的同時,盡可能平穩且廉價地運行;(c) 隨著分類器防護的演進,持續更新生產系統的功能;(d) 處理分類器防護造成痛苦(例如誤報)時的客戶反饋;(e) 裁定客戶免於被這些分類器攔截的豁免請求;(f) 與在其他平台上提供我們模型的合作夥伴合作,確保這些模型遵循相同的基本規則並運行相同的分類器防護;等等。

在許多情況下,有必要從那些忙碌且有其他首要任務、對什麼是危險什麼不是危險有自己印象的人那裡獲得貢獻、幫助和認同。

RSP 作為 Anthropic 實現高越獄魯棒性目標的明確聲明。負責任擴展官(Responsible Scaling Officer)參與了公司內部許多可能影響實現這一目標能力的決策,並定期與許多不同部門的人員開會以協調各個方面。作為向負責任擴展官彙報的 RSP 顧問,我被請來就不同團隊提出的許多問題提供建議,這些問題涉及我們應該做什麼以確保我們達到了與 ASL-3 相關的高層級承諾。^()

我對於為這些特定關注用途實現越獄魯棒性的目標是否值得投入所有的精力與優先級感到相當不確定。但它確實獲得了大量的投入,而且我認為我們至少證明了 RSP 可以讓一家公司優先考慮並執行那些否則可能會遭遇「有些人優先考慮,有些人不,結果因為需要很多環節都正確才能實現高魯棒性而導致魯棒性低下」命運的事情。這看起來至少是一種如果能被善加利用,在減少 AI 極端風險方面具有巨大潛力的工具。

成功與失敗參半的案例:對信息安全的影響

我認為 RSP 激發了在全公司範圍內實現「ASL-3 安全」的協同努力。在實踐中,這最終演變為高度關注少數幾項被認為對此目標特別重要或有前景的安全措施——尤其是出口帶寬控制(詳見)。

我認為這導致了更積極的安全能力建設、更多對保護模型權重的關注,以及在出口帶寬控制上的更多努力。我認為加強能力建設是好的,但另外兩項則毀譽參半。

  • 對我來說,模型權重安全是否是安全中最值得優先考慮的方面並不明顯(我在 中討論過這一點)。(我也對過去強調安全的這一方面負有責任。我仍然認為它極其重要,但我今天對針對最強大攻擊者實現模型權重安全的難度有了更好的認識,這影響了我認為最值得優先考慮的事情,如播客中所述。)
  • 在我看来,實施出口帶寬控制是一個相當不錯的嘗試,也是對精力的合理使用,但這仍有討論空間。
  • 我擔心優先考慮這些事情可能導致我們在安全的「不吸睛」方面投資不足,你可以從我們新的中的安全討論中感受到這一點。為了在全面範圍內實現更通用的安全,有很多小事我們應該改進。其中許多適用於多種威脅模型,而不僅僅是針對模型權重。

我還認為,關於我們試圖通過「ASL-3」安全標準實現什麼,存在著混淆。

  • 有些人認為我們的目標是達到一種狀態,即便是擁有授權訪問模型權重權限的資深 Anthropic 技術員工也無法竊取它們。我認為對於我們最終擁有的時間量來說,這是一個不切實際的目標(關於為了達到這類目標而暫停 AI 開發是否合理,見下文)。
  • 有些人認為我們的目標比這低,具體來說,我們的目標不是針對資深內部人員的魯棒性。我認為即便沒有出口帶寬控制之類的東西,我們可能也達到了這個較低的門檻。

ASL-4 和 ASL-5 的準備:錯誤的激勵

之前的 RSP 並未提供關於 ASL-4 和 ASL-5 標準的太多細節,但通常被理解為暗示當我們達到與「CBRN-4」和「AI R&D-5」相關的 AI 能力時,我們將需要保護我們的模型權重免受國家支持計劃的攻擊——或許還要針對這些攻擊實現越獄魯棒性。公司領導層在未來 2 年內有相當大的概率會出現可能跨越這些門檻的能力。

在這種時間框架內有實現那種魯棒性的可行路徑,除非麼暫停 AI 開發(可能長達數年),麼將安全優先到如此程度以至於產生類似的效果(例如,僅在非常受限的環境中部署模型)。

我不認為這種放慢速度對 Anthropic 本身是一個好主意。

  • 也許如果我們能確保 AI 生態系統的其餘部分也會表現得類似,那會是個好主意。但我不認為這具有可行性。我不認為強大 AI 的競賽是一個協調問題,我也不認為改善這種協調是 RSP 的核心目標(我在 中討論過這一點)。
  • 也許如果我們的放慢速度能導致世界其他地方「注意到」並轉向維護安全的政策,那會是個好主意。問題在於***「無法提出足夠強的理由證明風險是低的」「能提出廣泛令人信服的理由證明風險是高的」**之間的「灰色地帶」。 正如所述,這是一個潛在的巨大鴻溝,我預計在進入後者情況之前,我們會長期處於前者情況。我不認為在這種情況下單方面放慢速度必然有效;更有可能的是,它會適得其反,並主要被視為「狼來了」。
    明確地說,我認為
    有可能存在未來某種情況,為了幫助「拉響警報」而單方面暫停前沿 AI 開發是我們的最佳選擇。但這在很大程度上取決於證據狀態、政治格局等許多因素,在許多可以想像的世界中,這樣做會是一個錯誤的舉動。(詳見。)因此,我認為像舊版 RSP 所暗示的那樣承諾*採取這種行動方針是沒有意義的。

這是我在 Anthropic 嘗試研究 ASL-4 準備工作時所看到的:

  • 通往 ASL-3 路徑上的那種緊迫感和專注力已不復存在。與 ASL-4 相關的目標令人望而生畏且抽象。感覺我們的基本選擇麼是投擲「萬福瑪利亞」(Hail Marys)——嘗試那些可能產生高度魯棒風險緩解措施、但很可能只是浪費大量資源和精力的事情——麼是僅僅努力漸進地改進安全,希望我們不必很快達到要求(麼得益於監管支持的暫停,麼得益於 AI 能力提升緩慢)。
  • 我還感覺到我們的風險評估受到了扭曲的壓力。我們知道,如果我們宣布一個模型跨越了 CBRN-4 或 AI R&D-5 線,這可能對公司造成極大損害(因為我們的 RSP 屆時將要求單方面暫停或放慢 AI 開發與部署),同時卻沒有明顯的公眾利益(見上文)。在我看來,存在著巨大的壓力去宣布我們的系統缺乏相關能力、宣布我們的風險緩解措施正步入足以強大的正軌等。我不認為我們實際上做出了不合理的判斷,但我感受到了這種壓力,並希望我們不處於那樣的世界。

總體而言,我覺得人們認為 RSP 在這裡強加給我們的要求,在優點上是不合理的(在「單方面行動」的基礎上),對我們的風險評估和更廣泛的認知環境是有害的,並且對我們制定合理計劃以盡可能完善風險緩解措施的能力也是有害的。

我希望像 Anthropic 這樣的公司能在我們擁有的時間、技術格局和資源下盡可能降低風險。我覺得原先起草的 RSP 正變得與此越來越不相容。而且我希望像 RSP 這樣的安全措施能避免為了微小的風險降低利益而施加巨大的成本,如所述。

強制機制何時運作良好,何時不佳

從上述模式中,我得出一個觀點:最好的強制機制是設定一個富有野心但可實現的目標。

實現針對越獄的魯棒保護目標是富有野心的,但(事實證明)是可實現的。實現「ASL-3 安全」的目標有不同的解讀,其中一個是可實現但野心不大的,另一個是富有野心但(我認為)並非合理可實現的。與 CBRN-4 和 AI R&D-5 相關的目標則遠非可實現。

這些目標並非基於野心 + 可實現性來設定的——它們是基於對什麼樣的風險緩解措施能讓相關威脅模型的風險保持在低水平的抽象觀點而設定的。就我個人而言,我之所以參與這種設定目標的方式,是因為:

  • 在最初推廣 RSP 時,我與 METR 合作提出了沿著這些思路做出承諾的建議。
  • 我當時認為 (a) 公司比我更清楚什麼是可實現的,並會對不可實現的部分提出反對;(b) 考慮到 AI 發展時間線的不確定性和行業進步的飛速,現在看來不可實現的事情可能會變得可實現;(c) 對於某些看起來確實不可實現的事情(我確實認為在 AI 時間線非常短的情況下,防範國家行為者的模型權重安全是不可實現的),達成它們是理想的共識、開始朝著它們努力,並在我們最終面臨短 AI 時間線且沒有監管能單方面強制執行 RSP 願景時「想出辦法」,這仍然是好事。
  • 我沒預料到的是,RSP(至少在 Anthropic 的案例中)會被視為強硬的單方面承諾(儘管有「」),且迭代起來非常困難。

強制機制的另一個挑戰是設定穩健有益的目標。實現極高的模型權重安全聽起來很棒,但這是否比用這些精力可以做的許多其他事情更重要,例如針對多種威脅的、不那麼令人驚嘆但更廣泛的安全水平?在有限的主題上對越獄具有高度魯棒性是好的,但這是否比在更廣泛的主題上對越獄具有一定程度的魯棒性更好?

我認為,公開設定富有野心、可實現且穩健有益的目標,可以提供強大的強制機制來完成重大的風險降低工作。但當目標不可實現或並非穩健有益時,它們會扭曲優先級和風險評估,最終成為有害的力量。

如下文所述,RSP v3 投入了更多注意力於如何使承諾富有野心、可實現且穩健有益。我認為這與舊版 RSP 從「如何保持絕對風險在低水平」這一抽象問題推導目標的方法是不相容的。

目標 2(可納入監管的實踐與政策試驗場)

這一節會短一些,因為我已經涵蓋了上面的許多關鍵動態。

「擁有一項類 RSP 政策」似乎已成為許多已通過或接近通過的最有前景監管內容的重要組成部分。

然而,我認為我們還沒有接近要求具體且富有野心的風險緩解措施、在某些情況下暫停等監管。

我認為這是一個在當前政治環境下(雖然不一定持久)似乎正確的更廣泛原則的特例:監管要求*** AI 開發者已經在執行的實踐*****,要比要求尚未有人執行的實踐容易得多。** 我從政策討論中觀察到,相關政策參與者極其關心哪些安全相關實踐是可行的,且不會過度損害 AI 行業的進步與速度。

這可能會改變,因此,我認為 RSP 繼續闡述對全行業安全的建議,而不僅僅是列出 AI 開發者可以單方面承諾的實踐,是非常重要的。

但我認為,如果 RSP 能做更多事情來促使公司在降低風險方面採取具體的良好行動,它們對改進政策的作用會大得多。我相信有許多這樣的事情是可能的。我希望 RSP 繼續提出富有野心的全行業建議。但我希望它們能比現在更好地在領先的 AI 開發者中落實更多切實的風險緩解措施。

目標 3(致力於就 AI 風險與潛在緩解措施達成共識與共同知識)

我的感覺是 RSP 在這方面取得了一些成功。AI 系統在能力評估上的進步伴隨著對更大風險的承認和相應的,而不僅僅是新的能力評估。至少在 Anthropic 的案例中,它們還導致了更多關於風險評估的公開內容,我認為這對內部和外部都很有價值。

當 Anthropic 時,它希望為董事會和公眾提供一份說明,解釋其認為符合 ASL-3 標準的依據。這促成了

我參與了這份報告的工作,並認為這是一個有益的練習。僅僅是撰寫報告的過程就需要從許多來源收集信息並將其彙整,這讓我們能更好地理解我們最大的弱點在哪裡,以及我們風險降低案例中最關鍵的部分是什麼。從那以後,我看到了許多關於何時授予分類器防護豁免、更改分類器防護運作方式等的決策。人們經常提出類似這樣的觀點:「如果我們改變這一點,我們就必須在下一份安全保障報告更新中解釋原因。」這似乎是一個很好的動態,它迫使我們普遍避免增加風險的變動,同時又不會在某些我們一直在做的事情看起來不再是平衡風險降低與商業需求的最佳選擇時,完全束縛我們的手腳。^()

RSP v3 嘗試放大優點並減少缺點

舊版 RSP 在「能力閾值」與「所需安全保障」之間的映射,在某種意義上是試圖同時做三件事:

  • 它在闡述一套關於如何使 AI 在全球範圍內安全的建議。
  • 它也在為公共風險評估創造一個框架,例如在 中。
  • 它還試圖創造一個強制機制,以帶著緊迫感和專注力實現風險緩解。(因為它不僅是一套全行業安全建議,也是單個公司的計劃。)

在開發 RSP v3 時,我嘗試將這三件事分開,並把每一件都做得更好。

#1 現在由 RSP 的「全行業安全建議」章節負責。它現在明確寫作一套全行業建議,而非單個公司的計劃。背離隱含的「根據需要單方面暫停 AI 開發/部署以保持低風險」的承諾是 RSP v3 最大的變動;如上所述,我不認為單方面承諾曾是一個好主意,我希望原始 RSP 沒有給人留下如此強烈的印象,即它代表了單方面承諾。

#2 現在由「風險報告」負責。這些報告具有各種我認為正面的新特徵,例如將公司的所有模型(包括僅限內部的模型)納入風險評估範圍;將多個與風險相關的內容彙整在一起;以及轉向外部審查(最後一點既具有潛在的高影響力,目前也相當具有實驗性,我們可能需要對此想法進行迭代)。

我認為這裡的另一個改進點是,當我們沒有為得出某些結論設定過度/不合理的自我強加後果時,在風險報告中保持誠實會更容易。風險報告並非一份前提是我們已達到特定標準的「安全案例」,它只是為了描述當前的風險水平,無論該水平為何。

#3 在上述清單中,現在由我們的負責。我認為這是一個巨大的進步。

在制定路線圖時,我們投入了大量時間和精力在野心與可實現性之間尋找平衡。對於我們想做的每一件事,我們都會問:「誰需要參與才能成事,他們認為這可行嗎?」以及「在哪些世界中,我們可能會因為有其他資源/精力用途對降低風險更好,而後悔做出了這項承諾?」

我認為結果看起來更像是一個 (a) 反映了為我們的風險降低努力尋找重要性+可行性最佳結合的嘗試;(b) 可以作為真正的強制機制,而非

關於新路線圖是否會像舊承諾那樣強大,存在相當多的討論(特別是在公司內部),因為我們放棄了「為了達到風險緩解目標而根據需要延遲 AI 開發和部署」的想法。雖然這仍是一個開放性問題,但我對其增量效果感到相對樂觀:

  • 在我看來,舊版 RSP 並沒有真正讓人們為了風險緩解目標而犧牲所有其他目標(我也不希望如此)。我認為它大部分的「強制機制」動力來自於在公司內部形成共同知識,即目標 X 是公開宣布的、受領導層支持的目標,因此任何危及該目標達成或不達成的行動都會遇到阻力和潛在的升級。
  • 我認為像「公司會尷尬、領導層會惱火、績效評估會反映這一點」這樣的事情仍然提供了完成任務的強大激勵。雖然不如「公司可能不得不停止訓練新模型」那麼強,但我也認為過強且僵化的激勵存在缺點,如所述。我擔心很容易設定一個當時聽起來很好、但後來證明風險大得多(成本高於預期、前景不如其他目標等)的風險降低目標。
  • 新版 RSP 在靈活性與僵化性之間取得了(在我看來)更合理的平衡:「這些路線圖可能會發生變化。某些變化可能僅反映了我們對如何最好地緩解關鍵風險的理解演進。然而,我們將努力避免因為我們單純無法執行而將目標修改為野心較小的方向的情況。」
  • 即便強制機制因為缺乏嚴厲的「否則就……」而變弱,我也認為它會因為目標比舊版 RSP 規定的目標更具體、更現實而變得更強。 一個類比:如果我在跑 5 公里,如果我試圖打破個人紀錄,我會比試圖打破世界紀錄獲得更快的總成績。

我投入了大量努力嘗試協助設定,使路線圖成為強大的強制機制。但我無法確信這一定會成功。時間會證明一切。

這些好處是否僅適用於最以安全為導向的公司?

上文我強調了擁有做正確事情的靈活性的價值。但伴隨著做正確事情的靈活性,也伴隨著什麼都不做的靈活性。RSP v3 說我們必須發布風險報告和路線圖,但它並沒有強迫我們把其中任何一個做好。如果其他公司也採用類似的 RSP 會發生什麼?

我廣泛地希望其他公司採用類似的 RSP。

  • 我不相信任何前沿 AI 公司會真的基於這類政策單方面暫停或放慢 AI 開發(以顯著的程度),所以我認為他們承認這一點的負面影響有限(注意我在討論了這一變動對潛在監管的影響)。而且我認為推遲這種清算是存在嚴重弊端的。我認為這種重新定義降低了他們(在時機成熟時)直接說「哇,這政策太荒謬了,讓我們把它扔掉並刪除所有關於 AI 安全想法的提及」的風險。
  • 我認為如果其他公司也發布風險報告和路線圖並尋求外部審查,那將是非常棒的。
  • 我不認為 RSP 的文本中有任何內容能強迫這些文件變得優秀,但它不必如此。外部觀察者可以比較不同公司實際的風險報告和實際的路線圖,而不僅僅是看他們類 RSP 政策的文本。如果其他公司承諾製作這些文件,且如果 Anthropic 把我們的做得很好,那麼其他公司就會面臨壓力要把他們的也做好。這種壓力有多大取決於對 AI 風險的普遍關注程度。

一個修訂過、但未被推翻的 RSP 願景

我對 RSP 目標的看法自 以來有所演進,但仍有大量重疊。

我仍然對目標 1 感到興奮——實際上是更興奮了:為 AI 開發者創造強制機制,使其能帶著緊迫感行動並專注於風險緩解。我已經看到了足夠多 RSP 在這方面有效的「原型證明」,以至於我想看看我們能把它做得多好。我認為我們的路線圖比之前的方法更好地在野心與可實現性之間找到了平衡。

我仍然對目標 2(可納入監管的實踐與政策試驗場)感到興奮,但對我來說重點已經轉移。我現在較少考慮「如果公司同意一個富有野心的安全體系在抽象上是理想的,也許會增加我們獲得該體系的機率」,而更多考慮「如果公司做了越來越多不會減慢其速度的降低風險的事情,那麼隨著時間推移,越來越多這樣的事情可以成為監管的要求」。但我並未放棄對前者的興趣,「全行業安全建議」仍然保留在其中。

我對系統性的公共風險評估以及目標 3 的其他方面感到興奮。我認為新版 RSP 在這方面的野心更進一步。

我現在不(且從未)相信 RSP 本身能讓我們進入一個 AI 風險非常低的世界。但我認為它們能讓我們更安全。

問與答

關於背離隱含的單方面承諾

RSP v3 是否在主動發出「逐底競爭」的信號?為什麼要成為第一家明確放棄實現低風險水平的高野心的公司?

如果這種「高野心」意味著隱含的單方面暫停承諾,那麼我不認為這些承諾有什麼好處,我認為早點做出改變比晚點好。

我認為這種架構的具體問題會根據 AI 開發者的類型而有所不同。

  • 對於像 Anthropic 這樣(我聲稱)擁有大量真正努力為降低風險做最好事情的人員的公司來說,它扭曲了我們的規劃和風險評估(如上所述),且在優點上是一個壞主意。
  • 如果一家公司對降低風險幾乎沒有內在興趣,只是為了好看而做出承諾,我認為這種承諾可能幾乎沒有產生任何效果,而且在它明顯會產生束縛的時刻,它很可能直接被拋棄(隨之而來的是 RSP 和安全人員公信力的喪失,因為我預計大眾一旦理解其全部含義,就會認為它是合理的)。

無論如何,就 RSP 被視為單方面承諾而言,我不認為這是任何人應該試圖保留的東西。我寧願轉向一個 RSP 對降低風險產生更多實質影響的世界,如上所述。

你如何確定全行業的自願暫停不會發生?你是否擔心這會發出信號,表明你會成為囚徒困境中第一個背叛的人?

RSP 的修訂並非 Anthropic 在說「無論風險狀況如何,我們都會繼續進行 AI 開發與部署」。它是移除單方面承諾並提供更多靈活性。如果 Anthropic 確實推進高風險的 AI 系統(我認為這尚未發生),它將需要在風險報告中記錄這種思考,並具體討論「我們對當前及未來模型能力與風險緩解措施與相關競爭對手的比較了解多少」,以及「我們為提高公眾對相關風險的認識並鼓勵適當的監管行動所採取的步驟,包括我們與政策制定者和其他開發者的接觸」。

我不希望 Anthropic 在全行業暫停或放慢速度(無論是自願的還是其他的)看起來是一個替代方案的情況下,推進高風險的 AI 系統。我只是不希望 Anthropic 不管情況如何都預先承諾暫停。

話雖如此,我也承認我強烈認為當前的環境不符合「囚徒困境」模型。在當前的環境中,我認為有些離前沿不遠的公司會將任何單方面的暫停或放慢速度視為機會而非警告。這篇帖子不是我想指名道姓的地方,但在我看來,這對至少某些公司來說顯然是真的。這在未來可能會改變。

你如何確定你無法真的衝刺以實現信息安全、對對齊科學的理解以及部署安全保障,從而使任意強大的 AI 系統都變為低風險?

預測可能發生什麼總是很難,特別是如果我們能開發出某種中間階段的、強大但安全的 AI,能大規模提升我們在這些方面的努力,但我確信我們無法足夠確信到可以落實單方面承諾。

如果模型權重成為資源最充足的國家行為者的首要目標,那麼要使竊取變得困難所需的措施將是極端的,且在任何近期內似乎都與作為一家高速發展的 AI 開發公司不相容。是一個很好的參考,說明了這需要達到什麼程度(並明確指出:「目前不可能達到 SL5 [其對該安全水平的稱呼]。實現所有 SL5 措施可能需要國家安全界的協助。」)

接下來是關於如何使潛在超智能 AI 系統因對齊不良而尋求權力的風險降至極低的問題:

  • 對於這些風險有多大以及我們如何降低它們,我們有極高的不確定性。
  • 在某些情況下,關鍵風險可能直到 AI 系統變得高度先進時才會顯現,這使得提前研究和補救變得困難。
  • 我們正在做的許多工作都有很大的探索性成分,很難說是否會成功。
  • 確實有可能我們最終會對風險及其預防方法有非常深刻的理解,其中一種可能的方式是 AI 本身極大地加速了我們的安全研究。然而,也確實有可能我們最終陷入一種理解深度受限的境地,我們所能做的只是對風險水平做出有根據的猜測。

這次變動會向監管機構發出什麼信息?這是否會因為讓公司對低風險的承諾看起來不那麼嚴肅,而降低富有野心的監管出現的可能性?

我認為這裡的影響並不是非常清晰。

  • 一方面,也許這次變動會導致監管機構認為:「公司對於如何使 AI 安全所說的話還是一樣,但他們不打算自己去做那些事,所以這只是空談——不是我們真正應該圍繞其建立政策的東西。」
  • 另一方面,也許這次變動會導致監管機構認為:「Anthropic(以及潛在的其他公司)所說的是,如果沒有監管的幫助,它無法保持低風險。 我們不能把這件事留給公司自己。目前的透明度要求是不夠的。」

對我來說,上述兩點似乎大體上都是正確的,這很有意義。我相信不論這次變動是否通過,「公司……不打算[單方面]自己去做那些事」都是事實,因此我不認為避免監管機構看到這一點有很大價值。「我們不能把這件事留給公司自己」也是事實。

總體而言,這向監管機構發出的信息似乎是真實的,這似乎是支持它的一個理由。我不願意為了避免發出實質上真實的信息,而繼續承擔舊版 RSP 的日常成本。

為什麼現在必須這樣做——難道你不能等到最後一刻才做出變動,以防萬一那些富有野心的風險緩解措施最終成功了嗎?

我認為這次變動是緊迫的,我希望它能快得多。

  • 討論的舊版 RSP 的負面影響,每天都在扭曲我們在風險緩解和風險評估方面的工作。
  • 我相信圍繞風險報告和路線圖的新實踐(如我所述,我認為這些實踐與舊版 RSP 部分或完全不相容)是有價值的,我想開始這個緩慢的過程,目標是讓它們演進並成熟到全生態系統採用的程度。
  • 我認為「最後一刻」的變動可能比有原則的修訂(詳見下一節)發出更糟糕的逐底競爭信號,而且我認為「最後一刻」可能相對很快就會到來。

你是否可以先起草新版 RSP,然後等到必須援引「逃生條款」時再推出?或者將新版 RSP 作為「如果我們援引逃生條款,我們將會做什麼」來介紹?

我不認為這顯然是一個錯誤的決定。但我最終傾向於反對。以下是我看到的這種做法的缺點:

  • 擁有兩套不相容的未來風險緩解計劃似乎是功能失調的藥方——一套是我們中「富有野心但可實現」的計劃,另一套是舊版 RSP 列出的風險緩解措施。為了避免混淆,我們必須向公司非常清晰且大聲地聲明,應該引導我們日常改進風險緩解工作的是路線圖而非 RSP 列出的緩解措施,這似乎會削弱推遲變動的大部分潛在好處。
  • 似乎很多人想像援引「逃生條款」會導致一個富有成效的公眾警覺時刻。由於上述的「灰色地帶」問題,我的感覺恰恰相反。我擔心這種做法最終會向其他 AI 開發者傳達:「RSP 承諾一旦足夠不便就可以被廢棄,而且援引『逃生條款』實際上並不會導致任何人感到擔憂或採取任何行動」[這是我預計如果在類似今天的環境中援引該條款會發生的情況]。我更喜歡有原則的修訂所傳達的信息。

新的風險報告和路線圖很好,但難道你不能在不做出「背離單方面承諾」這一關鍵修訂的情況下發布它們嗎?

我認為路線圖與 RSP v2 是不相容的。我們的團隊需要知道優先處理哪些風險降低工作——是基於「富有野心但可實現」精神的工作,還是基於「任何能讓風險降至極低」精神的工作。如所述,我認為後者是扭曲的。

風險報告與 RSP v2 的不相容程度沒那麼高,但我認為 RSP v2 會使它們承受扭曲的壓力:我們需要不斷爭辯麼是我們的 AI 系統低於相關能力閾值,麼是我們的風險緩解措施符合相關要求,以避免(對 Anthropic 和對世界來說,我認為)可怕的後果。在這種情況下,我不會對撰寫風險報告感到興奮。

為什麼單方面暫停不是一個好主意?它可以是一個巨大的、可信的危險信號,從而引導政策行動。

我認為在某些情況下這是正確的,但在其他情況下則適得其反。

一方面,單方面暫停或放慢速度可以是一個嚴肅性的可信信號。另一方面,如果其他人覺得在缺乏監管的情況下他們沒有勝算,那麼監管支持的暫停或放慢速度可能更有可能發生。在很大程度上,競賽中的領先者是最有公信力提出或倡導平局的一方(更廣泛地說,當一方獲勝前景更好時,他們更有公信力)。

今天的政治環境下,我預計單方面暫停並試圖「拉響警報」只會讓我們看起來像是妄想且過度驚慌,同時激發其他 AI 開發者(並可能改善他們的融資和招募前景)。

單方面暫停在未來可能會成為一個好主意。但現在看來,承諾這樣做並不英明,特別是在我們剛開始相信自己的系統是危險的那個特定時點(我現在認為這個點不太可能接近我們能說服其他人的那個點)。

單方面暫停是否可能是一個好主意?為什麼不承諾在單方面暫停會是個好主意的情況下執行它?

是的,我認為在各種未來可能出現的情況下,基於後果論和非後果論的理由,單方面暫停都可能是一個好主意。我有一份關於我認為哪些情況需要這樣做的私人文件,以後我可能會將其改編為公開文章。

但如所述,承諾是有風險的,做出承諾的審慎程度很大程度上取決於我們對闡述一個穩健且良好承諾的信心。我對於闡述穩健、可操作的單方面暫停情境的信心非常低。許多關鍵因素歸結為「政治環境是什麼?」以及「我們能提供什麼風險證據,誰會或不會覺得它有說服力?」之類的事情。

為什麼你不以不同的方式溝通這次變動?我擔心你框架這件事的方式會導致受眾 X 接收到信息 Y。

在獲取新版 RSP 及相關材料預覽的私人反饋時,我收到了很多這類問題,我不打算詳盡地回覆每個版本的問題。

這裡涉及相當多不同的重要受眾,對於每個受眾,我認為不同的人對該受眾的理解模型有很大差異。與許多受眾(其中許多受眾只會進行相對淺層的參與)溝通是一項具有挑戰性的任務,我們選擇的任何路徑都會有許多潛在缺點,並且(我認為)會讓許多人覺得我們向某些重要受眾傳達了錯誤的信息。

我們盡力了,但總體而言,我不聲稱我們避免了所有「受眾 X 接收到信息 Y,而讓他們接收到信息 Z 會更好」的風險。我努力確保的是:

  • 我們的傳播是誠實的:它準確且公平地傳達了新版 RSP 的重要之處,以及我們為什麼做出這次變動。^()
  • 這篇文章為高參與度讀者提供了我思考的詳細說明。如果你正在閱讀這篇文章,你可能就是這篇文章的目標受眾,而不是新版 RSP 周邊大多數其他公共傳播的目標受眾。

為什麼 Anthropic 和你關於此事的溝通沒有更強烈的驚慌和/或失望氛圍?我勉強承認這次修訂在優點上是合理的,但我對此感到難過。難道你不難過嗎?

對於似乎很少有人對我認為足以保持低風險的那種 AI 監管感興趣,我感到難過和失望。我確實曾希望這裡有不同的軌跡,更像是「在類 RSP 政策的幫助下達成共識,即 AI 應該受到能保持低風險的那種監管」。

但我認為這個認知在目前已經是舊聞了,我對新版 RSP 感到興奮。我對路線圖、風險報告、轉向外部審查,以及解除一些我認為扭曲了我們安全努力的舊要求感到興奮。

我認為大多數事物的第一個版本都相當糟糕;我認為 RSP 產生了一些令人印象深刻的影響,也產生了一些不好的影響;我認為這次修訂是朝著放大優點、改善缺點並最終實現大量風險降低邁出的一步。

(重複上文)這次修訂並非因為「當前 AI 系統的災難性風險已經很高」(我不這麼認為),也不是因為「我們剛意識到強大的全球政策行動看起來不太可能實現」(我認為這並非最近才有的認知)。在我看來,這首先是關於從設計缺陷中學習並做出改進。

關於新版 RSP 的其他組成部分

新版 RSP 中「與競爭對手相關的承諾」看起來模糊且薄弱。你能增加和/或加強這些嗎?它們目前似乎不足以在「囚徒困境」的世界中提供強有力的保證,即每個相關公司都希望自己能更謹慎,但由於來自他人的壓力而不得不衝刺。

在高層級上,我認為 RSP 的這部分內容是試圖發出意圖信號,而非富有野心或穩健地解決協調問題。對於後者,我認為我們需要比這項政策更不同的機制。就目前所寫的內容,我認為這些內容的缺點和優點都相當低。

總體而言,我認為做出我們無法確信是良好承諾的承諾是不好的。我們很難了解競爭對手風險緩解措施的現狀,甚至在很大程度上也難以了解其模型能力(特別是正在內部使用、訓練中的模型能力等)。像「如果我們沒有肯定的證據證明我們的競爭對手正在做 X,我們就暫停」這樣的承諾,可能會讓我們陷入一種我們承諾了代價極高、但實際上沒有人認為對公司或世界是個好主意的事情中,這是我上文討論過要避免的重要性。

在看到過度僵化的 RSP 的影響後,我普遍希望朝著這個方向更新:「減少那些我們無法穩健理解其對我們意味著什麼的承諾;增加靈活性;嘗試讓公司在風險報告和路線圖的內容上競爭,而不是在政策的文本上競爭。」(這是針對這次迭代——如果舊問題看起來基本消失了,未來的版本可能會旨在進一步收緊。)

話雖如此,我不認為這些承諾毫無用處。例如,如果我們對防範對齊不良造成的災難性危害有了強有力的保證,我預計我們會對此相當公開,並且在我們無法公開提供強有力證據的情況下,我們會主動提出與相關方私下分享。如果所有相關公司都採取與我們類似的總體做法,我預計這類承諾最終會成為避免逐底競爭的重要強制機制。

為什麼外部審查僅在極端能力水平時才被要求?為什麼不現在就要求?

我將外部審查視為既高風險又具實驗性的事物,這是一個棘手的組合。

  • 它是高風險的,因為這相當於給予第三方審查高度敏感信息的機會,以及公開評論我們風險管理私人信息的公信力。如果他們不合理地這樣做,我們幾乎沒有追訴權:由於是我們選擇了他們且他們缺乏我們所面臨的問題激勵,他們擁有顯著的公信力,而且很難在公開場合爭論敏感的私人細節。
  • 它是實驗性的,因為到目前為止我們幾乎沒有相關經驗(除了這個涵蓋我們四個威脅模型之一的)。
  • 我們希望我們的外部審查員達到高度公正的標準(不僅僅是「在 Anthropic 沒有股份」,而是廣泛缺乏任何在現實或感知中可能構成利益衝突的聯繫)。這可能具有挑戰性,因為我們的許多員工在社交上都融入了 AI 安全社群,而且這些員工可能是那些可能成為潛在外部審查員的非營利組織的主要捐款來源。政府機構不太可能願意公開評論特定公司的風險實踐,我們仍在評估潛在私人合作夥伴的這類利益衝突。因此,我們仍在研究哪些組織最終能承擔這一職能,儘管目前已有可信的候選者。

儘管如此,我們的目標是盡快進行定期的外部審查,從我們目前的風險報告開始(該過程正在進行中)。我們只是還沒有承諾執行並支持這些審查,直到達到非常高的能力閾值。

這裡的基本想法是,由於高風險和實驗性質,承諾在以後做這件事會給我們帶來很大的壓力,促使我們現在就積累經驗——並向潛在的外部審查員發出需求將會存在的信號。 我認為這是目前要完成的最重要的事情,因此我寧願在一個可能不會像最優情況那樣快要求外部審查的較晚承諾上出錯(但這不太可能讓我們陷入因為沒有合適的參與者而後悔做出承諾的境地)。

話雖如此,我認為要求外部審查的閾值理想情況下應該更低/更早一些,現在之所以定在那裡,部分原因只是反映了我們的時間限制——完善該閾值並不是我們這次選擇投入精力的地方,我們可能會在未來的迭代中這樣做(例如 RSP v3.1 之類的)。

新的承諾大多關於風險報告和路線圖——什麼能阻止公司只是敷衍了事地製作這些文件?

RSP 文本在確保這些文件質量方面做得不多,我認為這沒問題。

除了發布 RSP,我們還發布了我們的第一份風險報告和路線圖,我認為它們實際上很好。(當然,我歡迎對這些文件的反饋!)

如果其他公司決定模仿我們的 RSP,我希望他們會感到壓力去匹配我們實際風險報告和路線圖的質量,而不僅僅是匹配我們政策的文本。

總體而言,我一直在將模型從:

公司在 RSP 文本上「逐頂競爭」(競相採取安全措施)
-> RSP 文本使他們更有可能做好的事情,不論其他情況如何

……更新為:

公司採用 RSP
-> 然後其中一些公司做了符合 RSP 精神的好事,因為他們擁有真正認同的員工
-> 然後所有公司都「逐頂競爭」以匹配那些好事的顯性方面。

為什麼 RSP 不設計得更具「對抗性」,使得一旦公司採用它,即便公司裡沒有人重視安全,它也能改進他們的實踐?

我不認為這曾是 RSP 的一個好目標。我不認為目前對風險評估和緩解的理解足以詳細且規範到足以實現這個目標,而不陷入討論的過度僵化承諾的陷阱。

RSP 的大部分影響依賴於公司中有一些認真對待它們的人。外部壓力有可能促使那些領導層不認真對待 AI 風險的公司去僱傭那些認真對待的個人;這需要對公司實際實踐敏感的壓力,而不僅僅是對其政策文本敏感。

(話雖如此,我確實抱有一些希望,即如果政治環境發生變化,公司僅僅聲明如何才能使 AI 安全,就可能對監管有所幫助。這不依賴於任何「對抗性設計」方法。)

未能達成路線圖承諾的後果是什麼?如果後果不嚴重,會有人在乎嗎?

我在討論了這一點。

好吧,但這是否也適用於其他公司?路線圖將如何迫使其他公司完成任務?

為什麼「全行業安全建議」不更具體一些?為什麼它是圍繞「安全案例」而非帶有具體風險緩解措施清單的「ASL」構建的?

我目前的觀點(與我們目前對「ASL」的使用一致)是,在我們對這些清單應該是什麼樣子有相當好的理解的情況下,制定具體的風險緩解措施清單是最明智的。我認為這對於目前已實施的「ASL-3」保護措施至少在一定程度上是正確的,但我認為對於我們在中列出的更高 AI 能力水平,要提供高保證需要做什麼,我們目前能說的有用的話要少得多。隨著時間推移,我們可能能說得更多,我也會想相應地修訂建議。

我希望「全行業安全建議」是我(以及 Anthropic)能夠支持的東西——作為「我們認為政府實際上應該建立並執行這個框架」——如果政治意願激增,人們問我們什麼樣的監管能保持低風險。這目前看起來不像是「使用 X 對齊技術和 Y 信息安全控制」,它看起來更像是一個受 FDA 啟發的體系,其中 AI 開發者有靈活性來提出風險較低的案例(必須涵蓋某些主題)。我們 RSP 中的「全行業安全建議」是我目前在這種情況下所能提供的最佳方案。

如果你可以隨時修訂承諾,那麼做出承諾的意義何在?

我最初在 2025 年 2 月開始推動轉向 RSP v3。這是一個非常漫長且費力的過程,「我們可以隨時修訂」作為對情況的描述似乎一點也不準確。

我希望修訂我們的 RSP 會存在一些阻力,儘管至少要比這次更新的阻力小一些。

在我理想的世界中,這類修訂會受到嚴格審查,重點在於:「這些變動在優點上是好的嗎?」但人們不會預設僅僅放寬之前的承諾這件事本身就是壞事。

  • RSP 是在對激進監管的預期大致達到頂峰時推出的——就在約書亞·本希奧(Yoshua Bengio)、傑弗里·辛頓(Geoffrey Hinton)和首次公開談論 AI 災難性風險的幾個月後,且就在(查爾斯國王在會上)以及美國關於 AI 的行政命令發布前不久。在我看來,從 2023 年推斷進展,會對 2026 年產生與我們今天看到的景象非常不同的預期。

  • 我承認,這是否比研究人員用這些時間做其他事情更好並不顯而易見,儘管我通常偏好那些有切實有用產出的項目,考慮到這個項目相對較快,優先處理它似乎是一件相當不錯的事情。

  • 當然,這並不是公司成功執行某些需要多部門參與和認同的目標的唯一案例。但與企業通常優先考慮的目標相比,這個目標有些奇特,我的強烈印象是,RSP 是它被以這種方式優先考慮的原因。

  • 總體而言,我認為 Anthropic 應該使用比「商業需求與降低風險相比幾乎沒有價值」更「正常」的框架來平衡風險降低與商業需求。如果我們採取後一種態度,我認為我們將失去競爭力,且我們實施的任何實踐都不適合被其他 AI 開發者採用。我支持我們第 6.2 節中更詳細闡述這一點的內容。

  • 不同的人往往對「發生了什麼變化」有不同的說法,這與在最初採用 RSP 時對其目標有不同的理解是一致的。這篇帖子呈現了對變化的看法,而 Anthropic 的部落格文章呈現了公司(領導層)的看法。我相信兩者都是誠實的。