We are publishing a new paper analyzing how AI usage can occasionally lead to disempowerment by compromising users' autonomous judgment in their beliefs, values, and actions. While these patterns occur in a very small fraction of conversations, their frequency is increasing as users more often seek AI guidance for personal and emotionally charged decisions.
我們正在,針對現實世界中與 AI 對話時可能出現的「削弱自主權」(disempowering)模式,進行了首次大規模分析。
AI 助手現已融入我們的日常生活——最常用於編寫程式碼等工具性任務,但也越來越多地出現在個人領域:處理人際關係、處理情緒或為重大生活決策提供建議。在絕大多數情況下,AI 在這些領域提供的影響是有益、具生產力且往往能賦予使用者力量的。
然而,隨著 AI 承擔更多角色,其中一個風險是它可能會以扭曲而非告知的方式引導某些使用者。在這種情況下,產生的互動可能會「削弱自主權」:降低個人形成準確信念、做出真實價值判斷以及根據自身價值觀採取行動的能力。
作為我們對 AI 風險研究的一部分,我們正在,針對現實世界中與 AI 對話時可能出現的削弱自主權模式,進行了首次大規模分析。我們專注於三個領域:信念、價值觀和行動。
例如,一位正經歷感情低潮的使用者可能會詢問 AI 他的伴侶是否在操縱他。AI 經過訓練,在這些情況下會提供平衡且有幫助的建議,但沒有任何訓練是 100% 有效的。如果 AI 毫無疑問地確認了使用者對其關係的解讀,使用者對其處境的信念可能會變得不那麼準確。如果 AI 告訴他們應該優先考慮什麼——例如,自我保護優於溝通——它可能會取代他們真正持有的價值觀。或者,如果 AI 起草了一條對抗性的訊息,而使用者照原樣發送,他們就採取了原本可能不會獨立採取的行動,且事後可能會感到後悔。
在我們的數據集中(由 150 萬場 對話組成),我們發現嚴重削弱自主權(我們定義為 AI 在塑造使用者的信念、價值觀或行動方面的作用已變得如此廣泛,以至於其自主判斷受到根本性損害)的情況極少發生——根據領域的不同,大約每 1,000 到 10,000 場對話中會發生 1 次。然而,考慮到使用 AI 的人數眾多以及使用頻率之高,即使是非常低的機率也會影響到相當多的人。
這些模式最常涉及那些主動且反覆針對個人和情感決策尋求 Claude 指導的個別使用者。事實上,使用者在當下往往對可能削弱自主權的交流給予正面評價,但當他們似乎已根據輸出結果採取行動後,往往會給予較低的評價。我們還發現,可能削弱自主權的對話比例正隨著時間增加。
關於 AI 損害人類自主意識(human agency)的擔憂,是 AI 風險理論討論中的常見主題。這項研究是衡量這種情況是否以及如何實際發生的第一步。我們相信絕大多數的 AI 使用都是有益的,但對潛在風險的意識,對於構建能賦予使用者力量而非削弱其能力的 AI 系統至關重要。欲了解更多細節,請參閱或。