Anthropic 與對齊問題

stratechery

大約 4 小時前

AI 生成摘要

Anthropic 正與國防部陷入僵局；雖然該公司的擔憂有其合理性，但其立場令人無法接受且與現實脫節。

Anthropic 正與戰爭部（Department of War）陷入僵局；雖然該公司的擔憂合情合理，但其立場令人無法容忍，且與現實脫節。

僅僅因為你對政治不感興趣，並不意味著政治不會對你感興趣。
—— 伯里克里斯 (Pericles)

這不是一篇關於美國對伊朗發動軍事行動的文章，但這是一個有用且及時的類比。關於「國際法」的概念以及誰可能違反了它，存在著永無止境的爭論。有些人會認為美國的攻擊違法；其他人則會指出，在我的一生中，伊朗一直透過其公開行動和對恐怖網絡的支持，連環違反國際法。

重要的是要注意，整個爭論最終是毫無意義的：「國際法」這個概念本身就是虛構的，並非因為相關法規和協議不存在，而是因為其有效性最終根植於其執行力。延伸而言，這意味著必須有一個具備相應能力的實體來執行，而這樣的實體並不存在。

是的，雖然有聯合國，但該機構僅依據成員國的協議運作，並取決於成員國是否願意屈服於其法令，以及是否願意投入力量來執行其授權。換句話說，唯一重要的主體是主權國家本身，而這些國家的相對權力並非取決於律師和法官，而是取決於它們投射武力和脅迫他人的能力。

換種說法，如果在這個週末之後，你仍想堅持國際法的概念，那麼請意識到爭論已經解決了：伊朗違法了，因為他們的軍隊剛被美國徹底擊潰，這意味著由美國來決定誰對誰錯。

Anthropic 對陣戰爭部

當美國大部分地區以及世界其他地方都在關注伊朗發生的事情時，科技界正進行著另一場激烈的辯論。這一次，其中一方同樣是美國政府本身，但另一個實體是一家私營公司：Anthropic。摘自《》：

聯邦政府將停止與 Anthropic 合作，並將這家人工智能公司列為供應鏈風險，這是政府與該公司就五角大廈如何使用其技術所產生的衝突之劇烈升級。在 Anthropic 與政府的關係降至新低的同時，競爭對手 OpenAI 在週五晚間表示，已與國防部達成協議，允許其模型在機密環境中使用，直到最近，這一地位僅由 Anthropic 擁有。週五五角大廈與這兩家矽谷寵兒之間快速發展的局勢，將塑造聯邦政府（特別是五角大廈）未來如何使用尖端 AI 工具。

Anthropic 在本週早些時候的一份《》中表明了立場：

在少數情況下，我們認為 AI 可能會破壞而非捍衛民主價值。某些用途也超出了當今技術能安全且可靠執行的範圍。有兩種此類用途從未包含在我們與戰爭部的合同中，我們認為現在也不應包含：

大規模國內監視。我們支持將 AI 用於合法的對外情報和反情報任務。但將這些系統用於大規模國內監視與民主價值不相容。AI 驅動的大規模監視對我們的基本自由構成了嚴重且新穎的風險。就目前此類監視合法而言，這僅是因為法律尚未趕上 AI 快速增長的能力。例如，根據現行法律，政府可以在沒有搜查令的情況下，從公共來源購買美國人移動、網頁瀏覽和社交關係的詳細記錄，情報界已承認這種做法引發了隱私擔憂，並在國會引發了兩黨的反對。強大的 AI 使得將這些零散、單獨看似無害的數據，自動且大規模地組合成任何個人生活的全面圖像成為可能。

全自動武器。半自動武器（如當今在烏克蘭使用的武器）對捍衛民主至關重要。甚至全自動武器（完全排除人類參與、自動選擇並攻擊目標的武器）也可能證明對我們的國防至關重要。但今天，前沿 AI 系統的可靠性不足以驅動全自動武器。我們不會在知情的情況下提供會讓美國戰士和公民面臨風險的產品。我們已提議與戰爭部直接進行研發合作，以提高這些系統的可靠性，但他們尚未接受此提議。此外，在缺乏適當監督的情況下，全自動武器無法被信賴去行使我們訓練有素的專業部隊每天展現的關鍵判斷。它們的部署需要適當的防護欄，而這在今天並不存在。

據我們所知，到目前為止，這兩個例外並未阻礙我們的模型在武裝部隊中的加速採用和使用。

戰爭部表示，他們只會與同意「任何合法用途」並移除上述案例中安全限制的 AI 公司簽約。他們威脅說，如果我們維持這些限制，將把我們從其系統中移除；他們還威脅要將我們列為「供應鏈風險」——這是一個保留給美國對手的標籤，以前從未應用於美國公司——並援引《國防生產法》強制移除安全限制。這後兩項威脅本質上是矛盾的：一個將我們標記為安全風險；另一個則將 Claude 標記為對國家安全至關重要。

無論如何，這些威脅不會改變我們的立場：我們無法憑良心同意他們的要求。

在這一集發生之前，我其實並沒意識到國家安全局（NSA）是戰爭部的一部分；這確實為監視點提供了有用的背景。而且，正如我們在十年前斯諾登揭秘中所看到的，NSA 在解釋什麼是合法的監視方面，既激進又富有創意。人們本可以希望電信公司能像 Anthropic 那樣採取立場。

與此同時，如果不是由民選國會通過的法律，那麼應該根據什麼標準來決定什麼是被允許的，什麼是不被允許的？Anthropic 的立場是，Amodei（我將其視為 Anthropic 管理層和董事會的代表）應該決定其模型用於何處，儘管 Amodei 並非民選產生，也不對公眾負責。

關於第二點，誰來決定美國軍事能力何時以及以何種方式使用？這是戰爭部的責任，而戰爭部最終向同樣是民選產生的總統負責。然而，Anthropic 的立場再次認為，不負責任的 Amodei 可以單方面限制其模型的用途。

值得注意的是，有報導稱 Anthropic 的擔憂可能不僅限於全自動武器；摘自《》：

Anthropic 是少數可供美國政府用於機密用途的「前沿」大型語言模型之一，因為它可以通過亞馬遜的絕密雲端（Top Secret Cloud）和 Palantir 的人工智能平台獲取，這就是為什麼其 Claude 聊天機器人會出現在監控當時委內瑞拉總統馬杜洛（Nicolás Maduro）被捕過程的官員屏幕上……

在馬杜洛突襲行動後不久，在 Palantir 與 Anthropic 舉行的定期溝通中，一名 Anthropic 官員與 Palantir 高管討論了該行動，後者從交流中察覺到這家 AI 初創公司不贊成其技術被用於該目的。Palantir 高管對 Anthropic 詢問中所暗示的——該公司可能會抵制其技術用於美國軍事行動——感到震驚，並將對話報告給了五角大廈，一位國防部高級官員表示。

Anthropic 否認反對 Claude 參與馬杜洛突襲行動，但考慮到科技界某些圈子抵制參與任何軍事行動的趨勢，《Semafor》的故事引起了共鳴。為此，有人可能會辯稱這場僵局正以應有的方式結束：Anthropic 及其模型將從戰爭部的技術棧中移除，並由替代方案取代。

北韓與核武器

Amodei 對 AI 和國家安全的其他方面一直直言不諱；摘自：

Anthropic 首席執行官 Dario Amodei 表示，在美國採取行動允許輝達（Nvidia）向北京出售其 H200 處理器之際，向中國出售先進的人工智能芯片是一個具有「令人難以置信的國家安全影響」的錯誤。「運送這些芯片將是一個巨大的錯誤，」Amodei 在瑞士達沃斯世界經濟論壇接受《彭博社》總編輯 John Micklethwait 採訪時表示。「我認為這太瘋狂了。這有點像把核武器賣給北韓。」

這相當於提高了一項混亂採購決策的賭注：考慮到如果我們字面上理解 Amodei 的類比所帶來的影響。

從伊朗開始：除了伊朗應對中東及其他地區數千名美國人的死亡負責外，美國干預的理由之一是伊朗繼續追求核武器能力。北韓展示了原因：北韓不需要購買核武器，因為他們已經擁有了，這無疑使得針對他們的任何潛在軍事行動變得複雜得多。核武器讓你成為（不存在的^()）國際法法庭中一名有效的律師！

簡而言之，核武器有意義地傾斜了權力平衡；如果 AI 具有同等的重要性，那麼美國對 Anthropic 允許其模型做什麼，以及 Anthropic 被允許做什麼，將會有更大的利益。

我認為，這為將 Anthropic 指定為供應鏈風險提供了重要的背景。：

配合總統關於聯邦政府停止使用 Anthropic 技術的指令，我正指示戰爭部將 Anthropic 指定為國家安全的供應鏈風險。即刻生效，任何與美國軍方有業務往來的承包商、供應商或合作夥伴，不得與 Anthropic 進行任何商業活動。

這將摧毀 Anthropic：至少該公司依賴 AWS、微軟和 Google 的雲端託管，而這些公司都與戰爭部簽有合同；我想這同樣適用於輝達。對該公司來說幸運的是，Hegseth 的聲明似乎與不符，法律限制了 Hegseth 的權限僅限於美國政府合同涵蓋的工作；換句話說，AWS 仍可以提供 Anthropic 模型，只要它不在向美國政府提供的任何服務中使用 Anthropic 模型。

無論如何，這是一項極端措施，遭到了幾乎普遍的沮喪，即使是那些同情「私營公司不應對美國軍方擁有否決權」這一觀點的人也是如此。為什麼美國政府會想要削弱其 AI 冠軍之一？

事實上，Amodei 已經回答了這個問題：如果核武器是由一家私營公司開發的，且該私營公司試圖向美國軍方發號施令，美國絕對有動力摧毀該公司。原因回到了國際法、北韓及其他問題：

國際法最終是權力的體現；強權即公理。
某些類別的能力（如核武器）足夠強大，能從根本上影響美國的行動自由；我們可以轟炸伊朗，但不能轟炸北韓。
如果 AI 達到核武器的水平（或超越），那麼 Amodei 和 Anthropic 就在建立一個潛在與美國軍方抗衡的權力基地。

Anthropic 經常談論對齊（alignment）；然而，這種堅持控制美國軍方的做法，從根本上與現實「失配」（misaligned）。目前的 AI 模型顯然還沒有強大到可以與美國軍方抗衡；然而，如果這是發展軌跡——而且沒有人比 Amodei 更大聲地主張這一軌跡——那麼在我看來，美國面臨的選擇實際上是非常二元的：

選項 1 是 Anthropic 接受相對於美國政府的從屬地位，不尋求保留關於其模型如何使用的最終決策權，而是將其留給國和總統。
選項 2 是美國政府要麼摧毀 Anthropic，要麼撤換 Amodei。

請注意，我並不是在引用 Anduril 創始人 Palmer Luckey 提出的關於民主監督重要性的（非常好的）論點；：

這比任何關於具體條款的辯論都更觸及問題的核心。你相信民主嗎？我們的軍隊應該由我們選出的領導人監管，還是由企業高管監管？……

這是一場關於 AI 的辯論這一事實並未改變底層的邏輯。同樣的問題也適用於對監視系統或自動武器等具有倫理爭議但重要的能力的定義和使用。說「但他們會有防禦性用途的自動系統豁免！」很容易，但你立即會陷入同樣甚至更多的問題——什麼是自動？什麼是防禦？在進攻行動中保衛資產，或將航母群停靠在認為我們具有進攻性的國家海岸附近又算什麼？

歸根結底，你必須相信美國實驗仍在繼續，相信人民有權選舉和撤換做出這些決定的權威，相信我們不完美的憲政共和國仍足以管理一個國家，而無需將真正的權力槓桿外包給億萬富翁、企業及其影子顧問。我仍然相信。這就是為什麼「兄弟，只要同意 AI 不參與自動武器或大規模監視就行，為什麼你不能同意，這很簡單請吧兄弟」是一個美國不可能接受的站不住腳的立場。

再次強調，我認為這是一個很好的論點；然而，我提出的論點更為基礎且殘酷，與是否相信美國實驗無關（儘管在這方面我與 Luckey 站在一起）：美國不可能容忍一個獨立權力結構的發展——這正是 AI 有潛力支撐的東西——且該結構正明確尋求從美國的控制中獨立出來。

複雜系統

鄭重聲明，我不希望 Anthropic 被摧毀，我希望他們成為美國的 AI 冠軍。同樣鄭重聲明，我不信任 Amodei 在國家安全或 AI 安全方面的判斷。

在國家安全方面，：

去年我在《》中闡述了為什麼我認為美中競爭的系統性觀點在涉及芯片和中國時，必然包含一些痛苦的權衡：

與本文相關的重要結論是，台灣在兩種情況下都是閃燃點。轉向亞洲是為了準備防禦潛在的中國入侵或禁運；退守美洲則可能意味著承認中國為亞洲霸主，這將不可避免地導致台灣被中國包圍。

毋庸置疑，這是一個我謹慎對待的討論，不僅因為我在台北斷斷續續生活了二十多年。而且，當然還有道德成分，台灣是一個充滿活力的民主國家，其人民對與中國統一毫無興趣。為此，現狀既荒謬卻又出奇地可持續：台灣在幾乎所有方面都是一個獨立國家，擁有自己的邊界、軍隊、貨幣、護照，以及（與科技相關的）由台積電主導的經濟；與此同時，台灣並未宣佈獨立，而美國的官方立場是承認中國認為台灣是他們的，既不背書該立場也不背書台灣獨立。

根據我的經驗，中國人和台灣人確實比美國人更容易處理這種模糊性；儘管如此，灰色地帶的作用有限。同樣重要的是現實主義因素，如軍事實力（曾有利於台灣，現在顯然有利於中國）、經濟聯繫（台灣與中國、中國與美國之間極其深厚）以及發動戰爭的可信度。在這裡，烏克蘭衝突以及由此產生的中俄關係顯得尤為重要，這歸功於軍事技術的共享以及石油和食品的陸路供應鏈，即使美國已經精疲力竭。延伸開來，這涉及另一個變化的因素：在美利堅治世（Pax Americana）下美國製造業的空洞化，與中國在製造業的主導地位直接相關，而這是最重要的戰爭能力。

儘管如此，仍有一個——或者說曾有一個——可能讓中國猶豫的關鍵因素：台積電的重要性。芯片支撐著現代經濟的各個方面；AI 的興起以及可能帶來的巨大收益承諾，只會讓這種需求更加迫切。只要中國需要台積電的芯片，他們就有強大的動力不去動台灣。

關鍵要考慮的是相反的情況：切斷中國獲取先進芯片的渠道，不僅降低了中國公司依賴美國生態系統的可能性，也降低了摧毀台積電的成本。更重要的是，如果 AI 變得像 Amodei 所說的那樣強大——相當於甚至超越核武器——那麼對於中國來說，在博弈論上最優的選擇正是這樣做：如果中國不能擁有 AI，那麼在當前情況下，確保任何人都不能擁有 AI 相對容易。

如上所述，Amodei 意識到中國通常是一個威脅；令我擔憂的是，他始終未能承認，他所建議的芯片管制行動方案，其隱含代價是冒著為所有人摧毀 AI 的風險。

話又說回來，Amodei 並不是真的支持「全民 AI」：他和 Anthropic 一直是開源模型的激烈反對者，並且是我認為的主要推動者。就像台灣局勢一樣，我認為這些立場顯示了系統性思考的失敗：

首先，如果只有封閉的 AI 系統，那麼難以想像的權力將賦予這些系統的所有者；Amodei 似乎認為該權力應由他掌握（至少，我更希望該權力由美國政府掌握）。
其次，認為 AI 安全只能由少數負責任的管家保證的想法，忽略了構建其他模型的巨大動力。這在幾年前只有少數公司開發 AI 模型時就很清楚，並且已被現實證明。
第三，在 AI 擴散的世界中，對抗 AI 的最佳防禦將是 AI；這意味著更多的 AI 實際上比受限的 AI 更安全，這意味著開源最終更安全。

在這些點上當然存在分歧的空間；令我對 Amodei 和 Anthropic 特別擔憂的是，他們始終如一地專注於成為擁有所有權力的唯一贏家，卻很少考慮其他人對這種情況的反應。或者，更直白地說，現實是其他人也存在，他們擁有槍支、導彈，是的，還有核武器。強權依然是公理，我個人寧願不把人類的未來交給一個似乎總是忘記這一事實的人和公司。

該信任誰

我確實認為是界定本週末辯論最樂觀的方式：

我對 AI 的監視能力確實感到極度不安；我們原以為擁有的許多保障，實際上主要是由於克服它們所需的摩擦力。AI 比電腦和互聯網更甚，是一種摩擦力溶劑，我完全理解為什麼 Anthropic 在這一特定點上的抵制會引起廣泛共鳴。

然而，應對這一新現實的方法是通過新法律和加強負責任的監督；歡呼甚至要求一個未經選舉的高管來決定如何以及在哪裡使用如此強大的能力，是通往更加專制未來的道路。

與此同時，我們的對手肯定會開發自主作戰能力（是的，我承認我的芯片處方使這更有可能更早發生——權衡是困難的！）；如果我們要保持國際法的最終來源地位，美國將需要朝這個方向發展。我所說的美國，是指民選的總統和國會，而不是舊金山的高管。我不想要那樣，更確切地說，那些拿著槍的人是不會容忍那樣的。Anthropic 需要與這一現實對齊。

是的，海牙確實存在；它受到與聯合國相同的限制

Anthropic and Alignment

Anthropic 對陣 戰爭部

北韓與核武器

複雜系統

該信任誰

Anthropic 對陣戰爭部