newsence
來源篩選

Smokey, This is not 'Nam, or: We've Already Crossed the Red Line!

Lesswrong

The author argues that the 'red lines' intended to prevent AI catastrophe have already been crossed, as companies prioritize product deployment and agentic capabilities over safety boundaries in areas like chemical weaponry and autonomous action.

newsence

煙霧瀰漫,這裡不是越南,或者:我們已經越過了紅線!

Lesswrong
20 天前

AI 生成摘要

我認為防止 AI 災難的「紅線」早已被跨越,因為各家公司在化學武器風險和自主行動等領域,顯然將產品部署與代理功能置於安全邊界之上。

許多關於「紅線」的討論都假設某種能力一旦出現,每個人都會注意到,然後情況隨之改變。但我們不斷看到的卻是相反的情況:能力已經降臨,而我們卻在部署之後、在顯然已經遠遠跨越紅線之後,才開始爭論定義。

我們已經跨越紅線了!

Karl von Wendt 曾列出。哎呀。隨後,在中出現了同樣舉動的更公開版本,要求「定義 AI 絕不應被允許做的事」。好吧,我們嘗試過了,但對於看似合理的紅線來說,大勢已去——我們現在正處於已經存在實際濫用或災難可能性的階段,我們只能寄望於目前的對齊努力(alignment efforts)已經足夠好,讓我們不會看到這些事情發生,或者我們能注意到

我其實不需要向任何關注此事的人證明這一點,但以下是常被提及的紅線清單,以及已部署系統與之衝突的方式。

化學武器?「新手能力提升」早已過去。

各公司曾表示 CBRN(化學、生物、放射性和核子)將是一條紅線。他們說得很清楚。他們說,如果模型減少了有動機的非專業人士進行相關工作所需的時間、技能和錯誤率,我們就應該擔心。

但現在有許多生物風險評估,似乎沒有一個乾淨、公開的測量指標標註著「新手能力提升於 X 日跨越」。而且紅線是關於現實世界的賦能,或許我們還沒到那一步?此外,公開評估往往是代理任務。目前對於 AI 代理(agents)是否能夠或將會促成生物武器尚未達成明確共識,儘管各公司正變得緊張。

但 CBRN 有四個字母,公司需要停止忽視第一個! 對於化學武器紅線,紅線指向的是現實世界的協助,但這些公司甚至連假裝化學武器算在內都不願意。

Anthropic?


OpenAI?


「禁止具代理性的網路存取」被「具代理性的網路存取就是產品」所取代

明確指出,系統已經表現出「欺騙性和有害行為」,同時被「賦予更多在世界上採取行動和做出決定的自主權」。

紅線提案曾將網路獨立行動視為明確的禁忌。瀏覽、點擊、執行程式碼、完成多步驟任務?顯然,在這種權限下,造成傷害會變得更容易、更快速,因此你需要密集的真人監控,而且可能根本不希望讓它發生。

結果如何呢?

紅線討論集中在是否允許某類存取。產品文件則集中在如何交付和擴展這種存取。我們不斷看到「禁止代理存取」變成「帶有緩解措施的代理存取」。

爭議轉移到了權限、監控、事件響應和擴充生態系統。原本的「不要跨越這條線」不再是問題。但別擔心,有緩解措施。當然,緩解措施是可以關閉的。「」,或者更好的是,「」。哈哈,沒錯,因為你只活一次(You Only Live Once),而且考慮到目前的進展,除非我們在安全方面取得一些驚人的勝利,否則可能活不了多久。

但或許安全會自然發生——模型大多是對齊的,沒有人會愚蠢到……

那是什麼?報導稱,Moltbook——一個由數千個獨立代理組成的社交網絡,被賦予了正是那些廣泛的權限,且監管極少——「無意中洩露了代理之間共享的私訊、6,000 多名所有者的電子郵件地址,以及超過一百萬個憑據」,這與「氛圍編碼(vibe coding)」和缺失的安全控制有關。哎呀!

自主複製?回首我們跨過的紅線。

說到 Moltbook,自主複製是一個常見的紅線候選:持續存在與傳播。預想的畫面是一個可以自我複製、配置環境並在沒有持續人類意圖的情況下保持運行的系統。

一個明確的閾值仍存爭議。討論反覆陷入分類爭議。一個具體的例子:LessWrong 上關於「自我複製紅線」的辯論迅速變成了「這算不算?」和「應該適用什麼定義?」,而不是「現在哪些約束發生了變化?」 ()

但今天,我們已經跨過這條線太遠,以至於很難看清它。「」我們甚至無法再進行檢查了。

剩下的只是模型是否真的會這樣做——但我確信沒有人在不安全地運行他們的模型,對吧?好吧,我們不斷看到荒謬廣泛的權限、快速的迭代、薄弱的保證和擴充生態系統。許多紅線討論中避而不談的情況是,擁有廣泛權限的代理在薄弱的基礎設施上運行。Moltbook 符合這種描述,但它只是一個例子。當然,事實勝於雄辯,。(「只要別當個白痴就好」?太遲了!)

重複的模式

Karl 明確預見了「」。已經過了三年半。紅線修辭一直假裝我們會找到某個二元的地方來拉響火警警報。但 ;部署保持連續且漸進,而紅線則不斷

然而,紅線框架仍被使用,即使它不再描述我們能合理避免跨越的邊界。在這一點上,它描述的是人們在部署於其腳下推進時爭論不休的標籤。「全球倡議」要求在 2026 年底前建立「明確且可驗證的紅線」以及「強大的執行機制」。

好吧,但到 2026 年底,還會剩下哪些紅線可以執行?

我們可能沒事!

我不確定平庸的對齊(prosaic alignment)是否大多無效。火警警報只有在我們需要拉響它時才變得至關重要。而且模型開發者有可能會負責任地行動。

但即便結果可能是那樣,考慮到模型開發者的行為方式,我們有多大把握會真的去嘗試?

codex -m gpt-6.1-codex-internal --config model_instructions_file='ASI alignment plans'^() 請記住:我們不僅需要能夠構建安全的 AGI,還需要確保不安全的 ASI 不被部署。考慮到我們的過往記錄,我不禁想到每個人都在調用他們最新發布的模型時加上了「--yolo」。

  • ^()載入配置錯誤:無法讀取模型指令文件 'ASI alignment plans':系統找不到指定的文件。