Analysis of Anthropic's Responsible Scaling Policy v3.0
Lesswrong
I am sharing my personal perspective on Anthropic's RSP v3.0, arguing that moving away from rigid, binding commitments toward a more flexible, iterative framework is essential for effectively reducing AI risks in a rapidly changing environment.
Anthropic 負責任縮放政策 3.0 版本深度分析
Lesswrong
4 天前
AI 生成摘要
我正在分享對 Anthropic RSP 3.0 版本的個人見解,並主張從僵化且具約束力的承諾轉向更具彈性、可迭代的框架,對於在快速變化的環境中有效降低 AI 風險至關重要。
我預期有些人會對背離「硬性承諾」或「把自己綁在桅杆上」(binding ourselves to the mast)的氛圍感到不滿。(Anthropic 一直有權修訂 RSP,且我們始終在條款中明確標註,若其他 AI 開發者未遵守類似承諾,我們可能會修訂掉關鍵承諾。但人們很容易產生一種印象,認為 RSP 是在「把自己綁在桅杆上」,承諾在某些條件下單方面暫停 AI 開發與部署,Anthropic 對此負有責任。)
我認為很多人有一種心態,像是:「我擔心 AI 公司在關鍵時刻會做錯誤的事,所以我希望他們盡可能僵化且緊密地約束未來的行動;模糊且靈活的政策只會給動機性推理留下更多空間。」我認為這在一定程度上有其道理,但也有另一面:世界(尤其是 AI 世界)變化極快,對未來的約束性承諾可能會讓你受困於對安全並無實質好處的事情,並使你難以根據實際情況進行調整和有效分配資源——這種動態存在著優先級錯誤、古德哈特定律(Goodharting)以及普遍的厭煩與反彈風險,我認為這非常值得關注。我一直意識到後者的問題,並試圖謹慎對待值得做出哪種承諾,但我現在更傾向於認為,要做好約束性承諾比我預想的更難,而那些在許多人看來模糊得令人沮喪的政策,在正確的背景下實際上能產生巨大的影響。
2023 年,我與 METR 合作開發並推廣了「負責任擴展政策」的基本概念。我們當時嘗試做的事情在 中有很好的體現。今天,我將目標大致總結如下(請將此視為我個人對 RSP 目標的思考,而非 METR 或其他任何人的觀點):
目標 1:為 AI 開發者創造強制機制,使其能帶著緊迫感行動並專注於風險緩解。 核心想法是:如果一家公司的政策規定,除非具備 Y 風險緩解措施,否則訓練具有 X 能力水平的 AI 模型是不安全的,那麼希望該公司會非常努力地落實這些風險緩解措施。這不依賴於承諾是否鐵定不變,而僅依賴於類似「如果未能達到公司聲稱正在努力達成且與安全 AI 開發相關的標準,將會令人尷尬,而公司會努力避免這種尷尬」。
目標 2:為可納入政策框架的實踐與政策創造試驗場。 核心想法是:如果許多主要的 AI 開發者都採用了風險緩解措施 Y,且/或同意風險緩解措施 Y 對安全至關重要,那麼這將使監管要求或引導風險緩解措施 Y,或將其作為 AI 開發或部署的門檻,在政治和實踐上都變得更容易。同樣,這不依賴於承諾是否鐵定不變——目前行業廣泛實踐且/或公開支持的任何特定風險緩解措施都能產生政策影響。
(具體一點:我希望如果降低 AI 風險的政治意願最終變強,那麼公司的自願實踐與政策將被視為監管的「底線」;而如果政治意願較弱,這些可能是我們能獲得的最佳結果。)
目標 3:致力於就 AI 風險與潛在緩解措施達成共識與共同知識。 當時人們對評估 AI 系統的雙重用途/危險能力已有很大興趣,但我們希望 RSP 能增加將能力與「威脅模型」掛鉤的努力,並普遍提高關於 AI 系統是否變得危險的共同知識水平。
並非核心目標:促成 AI 開發的大規模、自願性(非監管支持的)暫停。 當時,許多人似乎認為這是我們的目標,並以 RSP 計劃看起來不切實際為由進行批評。雖然我不認為少數 AI 開發者(如果他們遠領先於所有人)因這類政策而放慢 AI 開發速度是完全不可能的,但這從來不是主要希望,也不是實現上述其他目標的必要條件。
逃生條款(Escape clauses)。 METR 關於 包含了這段內容:
如果 RSP 減慢了採用它們的公司,但其他人卻在狂奔怎麼辦?
RSP 可能無法降低風險——甚至可能增加風險——的一種方式是導致以下動態:「謹慎的 AI 開發者為了避免風險而最終減慢速度,而不謹慎的 AI 開發者則盡可能快地前進。」
開發者可以透過在 RSP 中寫入靈活性來降低這種風險,思路如下:
如果他們認為其他參與者持續擴展帶來的風險高到無法接受,且他們已窮盡其他防止這些風險的途徑(包括密集倡導監管行動),那麼在某些情況下,他們可能會繼續自行擴展——同時繼續與國家或其他機構合作,採取能影響所有 AI 開發者(包括他們自己)的立即行動來限制擴展。
在這種情況下,他們應該向員工、董事會和國家機構明確表示,他們正在援引此條款,且其擴展不再安全。他們應該明確表示 AI 系統(包括他們自己的)存在立即的(而非未來假設的)災難性風險,並應對繼續進行的決定負責。
事後看來,我認為這段文字高估了能力評估能多好地向世界告知 AI 風險,低估了描述的「灰色地帶」問題,且/或普遍高估了決策者對「在證明安全之前假設 AI 是危險的」態度的政治意願與胃口。^() 例如:2025 年 5 月,Anthropic ,因為它覺得自己再也無法提出足夠強的理由證明相關風險是低的——但九個月後,儘管投入了巨大努力,包括資源充足的隨機對照試驗(結果即將公布),我們仍然缺乏令人信服的證據證明風險是高的。因此,我認為想像存在一條單一的「風險線」,我們能在足夠早的時候跨過它,既能防止公司施加重大風險,又能在足夠晚的時候讓密集倡導全球行動有現實的成功前景,這是一個錯誤。
我對於為這些特定關注用途實現越獄魯棒性的目標是否值得投入所有的精力與優先級感到相當不確定。但它確實獲得了大量的投入,而且我認為我們至少證明了 RSP 可以讓一家公司優先考慮並執行那些否則可能會遭遇「有些人優先考慮,有些人不,結果因為需要很多環節都正確才能實現高魯棒性而導致魯棒性低下」命運的事情。這看起來至少是一種如果能被善加利用,在減少 AI 極端風險方面具有巨大潛力的工具。
我在這種時間框架內有實現那種魯棒性的可行路徑,除非麼暫停 AI 開發(可能長達數年),麼將安全優先到如此程度以至於產生類似的效果(例如,僅在非常受限的環境中部署模型)。
我不認為這種放慢速度對 Anthropic 本身是一個好主意。
也許如果我們能確保 AI 生態系統的其餘部分也會表現得類似,那會是個好主意。但我不認為這具有可行性。我不認為強大 AI 的競賽是一個協調問題,我也不認為改善這種協調是 RSP 的核心目標(我在 中討論過這一點)。
也許如果我們的放慢速度能導致世界其他地方「注意到」並轉向維護安全的政策,那會是個好主意。問題在於***「無法提出足夠強的理由證明風險是低的」與「能提出廣泛令人信服的理由證明風險是高的」**之間的「灰色地帶」。 正如所述,這是一個潛在的巨大鴻溝,我預計在進入後者情況之前,我們會長期處於前者情況。我不認為在這種情況下單方面放慢速度必然有效;更有可能的是,它會適得其反,並主要被視為「狼來了」。
明確地說,我認為有可能存在未來某種情況,為了幫助「拉響警報」而單方面暫停前沿 AI 開發是我們的最佳選擇。但這在很大程度上取決於證據狀態、政治格局等許多因素,在許多可以想像的世界中,這樣做會是一個錯誤的舉動。(詳見。)因此,我認為像舊版 RSP 所暗示的那樣承諾*採取這種行動方針是沒有意義的。
這是我在 Anthropic 嘗試研究 ASL-4 準備工作時所看到的:
通往 ASL-3 路徑上的那種緊迫感和專注力已不復存在。與 ASL-4 相關的目標令人望而生畏且抽象。感覺我們的基本選擇麼是投擲「萬福瑪利亞」(Hail Marys)——嘗試那些可能產生高度魯棒風險緩解措施、但很可能只是浪費大量資源和精力的事情——麼是僅僅努力漸進地改進安全,希望我們不必很快達到要求(麼得益於監管支持的暫停,麼得益於 AI 能力提升緩慢)。
我還感覺到我們的風險評估受到了扭曲的壓力。我們知道,如果我們宣布一個模型跨越了 CBRN-4 或 AI R&D-5 線,這可能對公司造成極大損害(因為我們的 RSP 屆時將要求單方面暫停或放慢 AI 開發與部署),同時卻沒有明顯的公眾利益(見上文)。在我看來,存在著巨大的壓力去宣布我們的系統缺乏相關能力、宣布我們的風險緩解措施正步入足以強大的正軌等。我不認為我們實際上做出了不合理的判斷,但我感受到了這種壓力,並希望我們不處於那樣的世界。
我當時認為 (a) 公司比我更清楚什麼是可實現的,並會對不可實現的部分提出反對;(b) 考慮到 AI 發展時間線的不確定性和行業進步的飛速,現在看來不可實現的事情可能會變得可實現;(c) 對於某些看起來確實不可實現的事情(我確實認為在 AI 時間線非常短的情況下,防範國家行為者的模型權重安全是不可實現的),達成它們是理想的共識、開始朝著它們努力,並在我們最終面臨短 AI 時間線且沒有監管能單方面強制執行 RSP 願景時「想出辦法」,這仍然是好事。
我不相信任何前沿 AI 公司會真的基於這類政策單方面暫停或放慢 AI 開發(以顯著的程度),所以我認為他們承認這一點的負面影響有限(注意我在討論了這一變動對潛在監管的影響)。而且我認為推遲這種清算是存在嚴重弊端的。我認為這種重新定義降低了他們(在時機成熟時)直接說「哇,這政策太荒謬了,讓我們把它扔掉並刪除所有關於 AI 安全想法的提及」的風險。
我認為如果其他公司也發布風險報告和路線圖並尋求外部審查,那將是非常棒的。
我不認為 RSP 的文本中有任何內容能強迫這些文件變得優秀,但它不必如此。外部觀察者可以比較不同公司實際的風險報告和實際的路線圖,而不僅僅是看他們類 RSP 政策的文本。如果其他公司承諾製作這些文件,且如果 Anthropic 把我們的做得很好,那麼其他公司就會面臨壓力要把他們的也做好。這種壓力有多大取決於對 AI 風險的普遍關注程度。
一個修訂過、但未被推翻的 RSP 願景
我對 RSP 目標的看法自 以來有所演進,但仍有大量重疊。
我仍然對目標 1 感到興奮——實際上是更興奮了:為 AI 開發者創造強制機制,使其能帶著緊迫感行動並專注於風險緩解。我已經看到了足夠多 RSP 在這方面有效的「原型證明」,以至於我想看看我們能把它做得多好。我認為我們的路線圖比之前的方法更好地在野心與可實現性之間找到了平衡。
RSP 的修訂並非 Anthropic 在說「無論風險狀況如何,我們都會繼續進行 AI 開發與部署」。它是移除單方面承諾並提供更多靈活性。如果 Anthropic 確實推進高風險的 AI 系統(我認為這尚未發生),它將需要在風險報告中記錄這種思考,並具體討論「我們對當前及未來模型能力與風險緩解措施與相關競爭對手的比較了解多少」,以及「我們為提高公眾對相關風險的認識並鼓勵適當的監管行動所採取的步驟,包括我們與政策制定者和其他開發者的接觸」。
我不希望 Anthropic 在全行業暫停或放慢速度(無論是自願的還是其他的)看起來是一個替代方案的情況下,推進高風險的 AI 系統。我只是不希望 Anthropic 不管情況如何都預先承諾暫停。
似乎很多人想像援引「逃生條款」會導致一個富有成效的公眾警覺時刻。由於上述的「灰色地帶」問題,我的感覺恰恰相反。我擔心這種做法最終會向其他 AI 開發者傳達:「RSP 承諾一旦足夠不便就可以被廢棄,而且援引『逃生條款』實際上並不會導致任何人感到擔憂或採取任何行動」[這是我預計如果在類似今天的環境中援引該條款會發生的情況]。我更喜歡有原則的修訂所傳達的信息。
我們希望我們的外部審查員達到高度公正的標準(不僅僅是「在 Anthropic 沒有股份」,而是廣泛缺乏任何在現實或感知中可能構成利益衝突的聯繫)。這可能具有挑戰性,因為我們的許多員工在社交上都融入了 AI 安全社群,而且這些員工可能是那些可能成為潛在外部審查員的非營利組織的主要捐款來源。政府機構不太可能願意公開評論特定公司的風險實踐,我們仍在評估潛在私人合作夥伴的這類利益衝突。因此,我們仍在研究哪些組織最終能承擔這一職能,儘管目前已有可信的候選者。
我目前的觀點(與我們目前對「ASL」的使用一致)是,在我們對這些清單應該是什麼樣子有相當好的理解的情況下,制定具體的風險緩解措施清單是最明智的。我認為這對於目前已實施的「ASL-3」保護措施至少在一定程度上是正確的,但我認為對於我們在中列出的更高 AI 能力水平,要提供高保證需要做什麼,我們目前能說的有用的話要少得多。隨著時間推移,我們可能能說得更多,我也會想相應地修訂建議。
我希望「全行業安全建議」是我(以及 Anthropic)能夠支持的東西——作為「我們認為政府實際上應該建立並執行這個框架」——如果政治意願激增,人們問我們什麼樣的監管能保持低風險。這目前看起來不像是「使用 X 對齊技術和 Y 信息安全控制」,它看起來更像是一個受 FDA 啟發的體系,其中 AI 開發者有靈活性來提出風險較低的案例(必須涵蓋某些主題)。我們 RSP 中的「全行業安全建議」是我目前在這種情況下所能提供的最佳方案。