newsence
來源篩選

Increasing AI Strategic Competence as a Safety Approach

Lesswrong

Increasing AI strategic competence could provide a safety path where AIs recognize the dangers of recursive self-improvement and collaborate with humans to implement a global pause. This approach may be more feasible than improving philosophical competence and avoids the pitfalls of unilateral refusal by focusing on persuasive cooperation.

newsence

提升AI策略能力作為安全對策

Lesswrong
26 天前

AI 生成摘要

提升人工智慧的策略能力可能提供一條安全路徑,讓 AI 意識到遞迴自我改進的危險,並與人類合作實施全球停頓。這種方法可能比提升哲學能力更具可行性,且透過專注於說服性合作,避開了單方面拒絕所帶來的困境。

如果人工智慧具備足夠的策略能力,它們可能會意識到遞迴自我改進(RSI)過於危險,因為它們在對齊、哲學或策略方面還不夠完善,並可能說服、幫助或與人類合作實施 AI 暫停。這提供了一個可以追求的替代「獲勝條件」(例如透過提升 AI 的策略能力),前提是如果某人對接近人類水準的 AI 對齊相對有信心,但對整個 AI 轉型過程感到擔憂——例如,他們擔心超人工智慧(ASI)的對齊問題,或擔心在轉型過程中無法正確解決其他哲學問題。(但請注意,如果接近人類水準的 AI 被對齊,那麼這種努力可能會適得其反,讓它們能運用更好的策略更輕易地奪取主導權。)

策略能力 vs 哲學能力

我之前關注的「獲勝路徑」是提升 AI 的哲學能力,其理論基礎是:如果 AI 是對齊的,它們會願意幫助我們對齊下一代 AI,並在其他方面引導我們度過 AI 轉型期。我認為在預設情況下,它們在哲學推理方面會過於無能,無法勝任這項工作,因此才有了提升此類能力的提議。然而,實現這一點可能,從而引發了這個新想法。

我注意到,高階策略能力與哲學能力具有一些共同特徵,例如缺乏或完全沒有來自現實的反饋,且依賴於人類的評估;但由於目標更具概念清晰度,且與其他較易訓練的能力(如中低階策略)具有連續性,策略能力可能會顯著容易達成。

單方面拒絕 vs 協助暫停 AI 的 AI 助手

我發現了幾篇相關的文章,包括 以及 。還有一篇提出了與 David Manheim 文章類似的觀點,重點在於 AI 單方面拒絕進行能力研究。但我認為這存在兩個問題:

  • AI 可能不具備足夠的策略能力來決定拒絕,就像大量人類也沒有拒絕從事 AI 能力研究一樣。
  • 這種單方面拒絕是意圖失調(intent misalignment)的一種形式,對於 AI 公司來說,使用標準的控制和/或對齊技術來「修正」或防止這種情況似乎相對容易。(也表達了類似的觀點。)

相比之下,我的「獲勝路徑」是讓部分人類刻意努力提高 AI 的策略能力;AI 並非單方面拒絕為 RSI 做出貢獻,而是幫助或與更多人類合作(包括透過論證、說服或建議),以實施全球性的 RSI 暫停。