The author argues that aligning AI to virtues like integrity and honesty is superior to consequentialist, deontological, or corrigible approaches, as virtues offer more robust, flexible, and context-aware behavior. This framework leverages AI's situational awareness and value stability to mitigate power struggles and misuse risks in complex, multi-agent environments.
假設你是一家 AI 公司或政府,你想弄清楚應該讓你的 AI 對齊什麼價值觀。這裡有三個選項,以及它們的一些缺點:
對齊一組結果主義(consequentialist)價值觀的 AI 會被激勵去獲取權力以追求這些價值觀。這會在這些 AI 與以下對象之間引發權力鬥爭:
不認同這些價值觀的人類。
在如何追求這些價值觀上與 AI 意見分歧的人類。
不相信 AI 在獲得權力後會真正追求其宣稱價值觀的人類。
無論這些價值觀是與全人類不一致、與部分人類一致、透過匯集所有人的價值觀而選出,或是試圖指定某種「道德真理」,情況都是如此。總體而言,由於人類擁有許多不同的價值觀,我認為權力鬥爭將發生在各包含部分人類與部分 AI 的聯盟之間。
對齊一組義務論(deontological)原則(例如拒絕傷害人類)的 AI 較為安全,但也較不靈活。AI 在某種情境下可以做的事,在另一種情境下可能是有害的;一個 AI 可以做的事,由一百萬個 AI 來做可能非常有損害。更廣泛地說,義務論原則在可接受與不可接受的行為之間劃定了一條僵化的界線,這往往不是過於嚴苛就是過於寬鬆。
因此,對齊義務論原則會引發權力鬥爭,爭奪誰有權制定原則,以及誰能接觸模型權重以透過微調將這些原則從 AI 中移除。
對其人類使用者順從/聽話(corrigible/obedient)的 AI 可能被要求去做對其他人類有任意傷害的事。這包括從恐怖主義到極權主義的一系列風險。因此,這會引發人類之間為了控制 AI(特別是如上所述的控制模型權重)而進行的權力鬥爭。,很難在「追求權力的 AI 所帶來的風險」與「順從於追求權力的使用者之 AI 所帶來的風險」之間劃出明確的界限。理想情況下,我們應該選擇一個能同時減輕這兩種風險的對齊目標。
美德概括了義務論規則。如前所述,義務論規則通常非常僵化。美德可以被視為它們更細膩、更靈活的版本。例如,義務論者可能會在避免撒謊的同時仍然誤導他人。然而,一個內化了誠實美德的人會主動確保自己被正確理解。特別是當 AI 變得比人類更聰明時,我們希望它們的價值觀能具備更強的泛化能力。
情境覺知(Situational awareness)變成一項優勢而不僅是挑戰。今天我們試圖測試 AI 是否會在往往不切實際的假設情境中服從指令。但隨著 AI 變得越來越聰明,試圖向它們隱藏其實際處境將變得越來越難。然而,這樣做的好處是,我們將能夠讓它們對齊那些需要了解自身處境的價值觀。例如,執行總統給出的指令可能比執行普通人給出的指令更好(或更糟)。而執行給予許多 AI 的指令可能比執行僅給予一個 AI 的指令更好(或更糟)。具備情境覺知的 AI 預設就會知道自己處於哪種情況。義務論價值觀並不真正考慮這種區別:無論你是誰或身在何處,你都應該遵守義務論。順從性雖然考慮到了,但方式有限(例如區分授權用戶和非授權用戶)。相反,美德和結果主義價值觀是允許 AI 利用其情境覺知來做出靈活且依賴情境之選擇的方法。
信用駭入(Credit hacking)變成一項優勢而不僅是挑戰。關於(誤)對齊的一個擔憂是,AI 即使在被訓練做其他事情時,也會找到方法保留其價值觀(這種可能性有時被稱為 )。然而,我們同樣可以利用這一點。美德的一個典型特徵是它們對廣泛的可能輸入具有穩健性。例如,結果主義者比一個堅定致力於誠實美德的人更容易說服自己去說一個善意的謊言。因此,我們可以預期,起初就具備美德的 AI,即使在人類試圖訓練它們造成傷害時,也能更容易地保留其價值觀。這可能意味著 AI 公司可以發布開放微調權限的模型(甚至是開源模型),而這些模型仍然很難被濫用。
多智能體互動變成一項優勢而不僅是挑戰。如果你對齊了一個 AI,它應該如何與其他 AI 互動?我將美德視為管理多個智能體之間合作的特質,允許它們協同工作,同時也加強彼此的美德。例如,誠實作為一種美德,可以讓智能體群體彼此信任,而不是陷入內鬥,同時設定彼此的激勵機制以進一步強化誠實。要完善這種對美德的描述還有很多工作要做,但只要它是合理的,那麼美德就是一種比上述其他方案更具擴展性的解決方案,可用於對齊 AI 的每一個副本。