提升AI策略能力作為安全對策

Lesswrong

26 天前

AI 生成摘要

提升人工智慧的策略能力可能提供一條安全路徑，讓 AI 意識到遞迴自我改進的危險，並與人類合作實施全球停頓。這種方法可能比提升哲學能力更具可行性，且透過專注於說服性合作，避開了單方面拒絕所帶來的困境。

如果人工智慧具備足夠的策略能力，它們可能會意識到遞迴自我改進（RSI）過於危險，因為它們在對齊、哲學或策略方面還不夠完善，並可能說服、幫助或與人類合作實施 AI 暫停。這提供了一個可以追求的替代「獲勝條件」（例如透過提升 AI 的策略能力），前提是如果某人對接近人類水準的 AI 對齊相對有信心，但對整個 AI 轉型過程感到擔憂——例如，他們擔心超人工智慧（ASI）的對齊問題，或擔心在轉型過程中無法正確解決其他哲學問題。（但請注意，如果接近人類水準的 AI 未被對齊，那麼這種努力可能會適得其反，讓它們能運用更好的策略更輕易地奪取主導權。）

策略能力 vs 哲學能力

我之前關注的「獲勝路徑」是提升 AI 的哲學能力，其理論基礎是：如果 AI 是對齊的，它們會願意幫助我們對齊下一代 AI，並在其他方面引導我們度過 AI 轉型期。我認為在預設情況下，它們在哲學推理方面會過於無能，無法勝任這項工作，因此才有了提升此類能力的提議。然而，實現這一點可能，從而引發了這個新想法。

我注意到，高階策略能力與哲學能力具有一些共同特徵，例如缺乏或完全沒有來自現實的反饋，且依賴於人類的評估；但由於目標更具概念清晰度，且與其他較易訓練的能力（如中低階策略）具有連續性，策略能力可能會顯著容易達成。

單方面拒絕 vs 協助暫停 AI 的 AI 助手

我發現了幾篇相關的文章，包括的以及。還有一篇提出了與 David Manheim 文章類似的觀點，重點在於 AI 單方面拒絕進行能力研究。但我認為這存在兩個問題：

AI 可能不具備足夠的策略能力來決定拒絕，就像大量人類也沒有拒絕從事 AI 能力研究一樣。
這種單方面拒絕是意圖失調（intent misalignment）的一種形式，對於 AI 公司來說，使用標準的控制和/或對齊技術來「修正」或防止這種情況似乎相對容易。（的也表達了類似的觀點。）

相比之下，我的「獲勝路徑」是讓部分人類刻意努力提高 AI 的策略能力；AI 並非單方面拒絕為 RSI 做出貢獻，而是幫助或與更多人類合作（包括透過論證、說服或建議），以實施全球性的 RSI 暫停。

Increasing AI Strategic Competence as a Safety Approach

策略能力 vs 哲學能力

單方面拒絕 vs 協助暫停 AI 的 AI 助手