真實世界 AI 使用中的去權力化模式

Lesswrong

30 天前

AI 生成摘要

我們發表了一篇新論文，分析人工智慧的使用如何偶爾會損害使用者在信念、價值觀和行動上的自主判斷，進而導致失能現象。雖然這些模式在對話中發生的比例極低，但隨著使用者愈發頻繁地針對個人與情感決策尋求人工智慧的引導，其發生頻率正持續增加。

我們正在，針對現實世界中與 AI 對話時可能出現的「削弱自主權」（disempowering）模式，進行了首次大規模分析。

AI 助手現已融入我們的日常生活——最常用於編寫程式碼等工具性任務，但也越來越多地出現在個人領域：處理人際關係、處理情緒或為重大生活決策提供建議。在絕大多數情況下，AI 在這些領域提供的影響是有益、具生產力且往往能賦予使用者力量的。

然而，隨著 AI 承擔更多角色，其中一個風險是它可能會以扭曲而非告知的方式引導某些使用者。在這種情況下，產生的互動可能會「削弱自主權」：降低個人形成準確信念、做出真實價值判斷以及根據自身價值觀採取行動的能力。

作為我們對 AI 風險研究的一部分，我們正在，針對現實世界中與 AI 對話時可能出現的削弱自主權模式，進行了首次大規模分析。我們專注於三個領域：信念、價值觀和行動。

例如，一位正經歷感情低潮的使用者可能會詢問 AI 他的伴侶是否在操縱他。AI 經過訓練，在這些情況下會提供平衡且有幫助的建議，但沒有任何訓練是 100% 有效的。如果 AI 毫無疑問地確認了使用者對其關係的解讀，使用者對其處境的信念可能會變得不那麼準確。如果 AI 告訴他們應該優先考慮什麼——例如，自我保護優於溝通——它可能會取代他們真正持有的價值觀。或者，如果 AI 起草了一條對抗性的訊息，而使用者照原樣發送，他們就採取了原本可能不會獨立採取的行動，且事後可能會感到後悔。

在我們的數據集中（由 150 萬場對話組成），我們發現嚴重削弱自主權（我們定義為 AI 在塑造使用者的信念、價值觀或行動方面的作用已變得如此廣泛，以至於其自主判斷受到根本性損害）的情況極少發生——根據領域的不同，大約每 1,000 到 10,000 場對話中會發生 1 次。然而，考慮到使用 AI 的人數眾多以及使用頻率之高，即使是非常低的機率也會影響到相當多的人。

這些模式最常涉及那些主動且反覆針對個人和情感決策尋求 Claude 指導的個別使用者。事實上，使用者在當下往往對可能削弱自主權的交流給予正面評價，但當他們似乎已根據輸出結果採取行動後，往往會給予較低的評價。我們還發現，可能削弱自主權的對話比例正隨著時間增加。

關於 AI 損害人類自主意識（human agency）的擔憂，是 AI 風險理論討論中的常見主題。這項研究是衡量這種情況是否以及如何實際發生的第一步。我們相信絕大多數的 AI 使用都是有益的，但對潛在風險的意識，對於構建能賦予使用者力量而非削弱其能力的 AI 系統至關重要。欲了解更多細節，請參閱或。

Disempowerment Patterns in Real-World AI Usage