Increasing AI Strategic Competence as a Safety Approach
Lesswrong
Increasing AI strategic competence could provide a safety path where AIs recognize the dangers of recursive self-improvement and collaborate with humans to implement a global pause. This approach may be more feasible than improving philosophical competence and avoids the pitfalls of unilateral refusal by focusing on persuasive cooperation.
提升AI策略能力作為安全對策
Lesswrong
26 天前
AI 生成摘要
提升人工智慧的策略能力可能提供一條安全路徑,讓 AI 意識到遞迴自我改進的危險,並與人類合作實施全球停頓。這種方法可能比提升哲學能力更具可行性,且透過專注於說服性合作,避開了單方面拒絕所帶來的困境。
如果人工智慧具備足夠的策略能力,它們可能會意識到遞迴自我改進(RSI)過於危險,因為它們在對齊、哲學或策略方面還不夠完善,並可能說服、幫助或與人類合作實施 AI 暫停。這提供了一個可以追求的替代「獲勝條件」(例如透過提升 AI 的策略能力),前提是如果某人對接近人類水準的 AI 對齊相對有信心,但對整個 AI 轉型過程感到擔憂——例如,他們擔心超人工智慧(ASI)的對齊問題,或擔心在轉型過程中無法正確解決其他哲學問題。(但請注意,如果接近人類水準的 AI 未 被對齊,那麼這種努力可能會適得其反,讓它們能運用更好的策略更輕易地奪取主導權。)
策略能力 vs 哲學能力
我之前關注的「獲勝路徑」是提升 AI 的哲學能力,其理論基礎是:如果 AI 是對齊的,它們會願意幫助我們對齊下一代 AI,並在其他方面引導我們度過 AI 轉型期。我認為在預設情況下,它們在哲學推理方面會過於無能,無法勝任這項工作,因此才有了提升此類能力的提議。然而,實現這一點可能,從而引發了這個新想法。