煙霧瀰漫，這裡不是越南，或者：我們已經越過了紅線！

Lesswrong

20 天前

AI 生成摘要

我認為防止 AI 災難的「紅線」早已被跨越，因為各家公司在化學武器風險和自主行動等領域，顯然將產品部署與代理功能置於安全邊界之上。

許多關於「紅線」的討論都假設某種能力一旦出現，每個人都會注意到，然後情況隨之改變。但我們不斷看到的卻是相反的情況：能力已經降臨，而我們卻在部署之後、在顯然已經遠遠跨越紅線之後，才開始爭論定義。

我們已經跨越紅線了！

Karl von Wendt 曾列出。哎呀。隨後，在中出現了同樣舉動的更公開版本，要求「定義 AI 絕不應被允許做的事」。好吧，我們嘗試過了，但對於看似合理的紅線來說，大勢已去——我們現在正處於已經存在實際濫用或災難可能性的階段，我們只能寄望於目前的對齊努力（alignment efforts）已經足夠好，讓我們不會看到這些事情發生，或者我們能注意到。

我其實不需要向任何關注此事的人證明這一點，但以下是常被提及的紅線清單，以及已部署系統與之衝突的方式。

化學武器？「新手能力提升」早已過去。

各公司曾表示 CBRN（化學、生物、放射性和核子）將是一條紅線。他們說得很清楚。他們說，如果模型減少了有動機的非專業人士進行相關工作所需的時間、技能和錯誤率，我們就應該擔心。

但現在有許多生物風險評估，似乎沒有一個乾淨、公開的測量指標標註著「新手能力提升於 X 日跨越」。而且紅線是關於現實世界的賦能，或許我們還沒到那一步？此外，公開評估往往是代理任務。目前對於 AI 代理（agents）是否能夠或將會促成生物武器尚未達成明確共識，儘管各公司正變得緊張。

但 CBRN 有四個字母，公司需要停止忽視第一個！對於化學武器紅線，紅線指向的是現實世界的協助，但這些公司甚至連假裝化學武器算在內都不願意。

Anthropic？

OpenAI？

「禁止具代理性的網路存取」被「具代理性的網路存取就是產品」所取代

明確指出，系統已經表現出「欺騙性和有害行為」，同時被「賦予更多在世界上採取行動和做出決定的自主權」。

紅線提案曾將網路獨立行動視為明確的禁忌。瀏覽、點擊、執行程式碼、完成多步驟任務？顯然，在這種權限下，造成傷害會變得更容易、更快速，因此你需要密集的真人監控，而且可能根本不希望讓它發生。

結果如何呢？

紅線討論集中在是否允許某類存取。產品文件則集中在如何交付和擴展這種存取。我們不斷看到「禁止代理存取」變成「帶有緩解措施的代理存取」。

爭議轉移到了權限、監控、事件響應和擴充生態系統。原本的「不要跨越這條線」不再是問題。但別擔心，有緩解措施。當然，緩解措施是可以關閉的。「」，或者更好的是，「」。哈哈，沒錯，因為你只活一次（You Only Live Once），而且考慮到目前的進展，除非我們在安全方面取得一些驚人的勝利，否則可能活不了多久。

但或許安全會自然發生——模型大多是對齊的，沒有人會愚蠢到……

那是什麼？報導稱，Moltbook——一個由數千個獨立代理組成的社交網絡，被賦予了正是那些廣泛的權限，且監管極少——「無意中洩露了代理之間共享的私訊、6,000 多名所有者的電子郵件地址，以及超過一百萬個憑據」，這與「氛圍編碼（vibe coding）」和缺失的安全控制有關。哎呀！

自主複製？回首我們跨過的紅線。

說到 Moltbook，自主複製是一個常見的紅線候選：持續存在與傳播。預想的畫面是一個可以自我複製、配置環境並在沒有持續人類意圖的情況下保持運行的系統。

一個明確的閾值仍存爭議。討論反覆陷入分類爭議。一個具體的例子：LessWrong 上關於「自我複製紅線」的辯論迅速變成了「這算不算？」和「應該適用什麼定義？」，而不是「現在哪些約束發生了變化？」 ()

但今天，我們已經跨過這條線太遠，以至於很難看清它。「」我們甚至無法再進行檢查了。

剩下的只是模型是否真的會這樣做——但我確信沒有人在不安全地運行他們的模型，對吧？好吧，我們不斷看到荒謬廣泛的權限、快速的迭代、薄弱的保證和擴充生態系統。許多紅線討論中避而不談的情況是，擁有廣泛權限的代理在薄弱的基礎設施上運行。Moltbook 符合這種描述，但它只是一個例子。當然，事實勝於雄辯，。（「只要別當個白痴就好」？太遲了！）

重複的模式

Karl 明確預見了「」。已經過了三年半。紅線修辭一直假裝我們會找到某個二元的地方來拉響火警警報。但；部署保持連續且漸進，而紅線則不斷。

然而，紅線框架仍被使用，即使它不再描述我們能合理避免跨越的邊界。在這一點上，它描述的是人們在部署於其腳下推進時爭論不休的標籤。「全球倡議」要求在 2026 年底前建立「明確且可驗證的紅線」以及「強大的執行機制」。

好吧，但到 2026 年底，還會剩下哪些紅線可以執行？

我們可能沒事！

我不確定平庸的對齊（prosaic alignment）是否大多無效。火警警報只有在我們需要拉響它時才變得至關重要。而且模型開發者有可能會負責任地行動。

但即便結果可能是那樣，考慮到模型開發者的行為方式，我們有多大把握會真的去嘗試？

codex -m gpt-6.1-codex-internal --config model_instructions_file='ASI alignment plans'^() 請記住：我們不僅需要能夠構建安全的 AGI，還需要確保不安全的 ASI 不被部署。考慮到我們的過往記錄，我不禁想到每個人都在調用他們最新發布的模型時加上了「--yolo」。

^()載入配置錯誤：無法讀取模型指令文件 'ASI alignment plans'：系統找不到指定的文件。

Smokey, This is not 'Nam, or: We've Already Crossed the Red Line!