Anthropic 放棄其旗艦級安全承諾

Hacker News

4 天前

AI 生成摘要

Anthropic 大幅修改了其負責任縮放政策，取消了若無法預先確保安全措施到位則停止訓練 AI 模型的中心承諾，主因是面臨競爭對手快速進步的市場壓力。

time.com

exclusive anthropic drops flagship safety pledge

背景

Anthropic 作為長期以「人工智慧安全」為核心招牌的頂尖研究實驗室，近期決定大幅修改其旗艦級的《負責任縮放政策》（Responsible Scaling Policy, RSP）。該公司取消了過去最核心的承諾：即若無法預先確保安全措施充足，便絕不訓練新模型；這項轉變反映出在競爭對手快速推進、缺乏國際監管共識以及地緣政治壓力下，這家曾標榜安全至上的公司正被迫轉向更具「務實主義」的擴張路線。

社群觀點

Hacker News 社群對於 Anthropic 的轉向展現出極為複雜且分歧的反應。許多評論者認為這是一個「意料之中」的發展，指出新創公司往往在初期標榜道德與社會責任，但一旦面臨資本市場的獲利壓力或即將進行的 IPO，這些承諾往往會為了營收目標而讓路。部分網友諷刺這是一種典型的企業生命週期：先以安全為名要求監管競爭對手以建立護城河，最後再以競爭壓力為由棄守自己的安全準則。

然而，討論中也出現了強烈的地緣政治與政策辯論。有觀點指出，Anthropic 的改變可能與美國國防部的壓力直接相關，特別是傳聞中政府要求 AI 公司移除可能阻礙軍事用途（如自動化武器目標定位或國內監控）的安全限制。支持這種觀點的人認為，在川普政府推動「放手發展」的政策背景下，Anthropic 若堅持教條式的安全準則，可能會面臨被排除在政府合約之外甚至更嚴厲的行政制裁。

另一派較為務實的聲音則為 Anthropic 辯護，認為在當前環境下，單方面的「自我停火」並無實質意義。如果負責任的開發者因為安全考量而停滯不前，市場與技術領先地位將被完全不重視安全的對手奪走，這反而會讓世界變得更不安全。這類觀點強調，為了維持在安全研究上的發言權，Anthropic 必須留在技術的最前沿，即便這意味著必須在縮放政策上做出妥協。

此外，社群也對技術層面的安全防護提出了反思。有留言者提到，目前開源社群（如 HuggingFace）上充斥著被刻意移除安全過濾的模型，且中國等競爭對手正全力衝刺，這使得封閉實驗室的安全承諾顯得有些脫離現實。也有人呼籲不應將安全寄託於企業的自律，而應從作業系統層級（如 Apple 或 Linux）建立更嚴格的權限控管與監控機制，將 AI 視為需要被隔離運行的應用程式，而非期待開發商永遠保持善良。

Anthropic Drops Flagship Safety Pledge

背景

社群觀點

延伸閱讀