對齊美德

Lesswrong

13 天前

AI 生成摘要

我認為將人工智慧對齊於誠信與正直等美德，優於結果論、義務論或順從性等方法，因為美德能提供更穩健、靈活且具備情境感知能力的行為。這種框架利用了人工智慧的情境感知與價值穩定性，能在複雜的多代理環境中減輕權力鬥爭與濫用風險。

該選擇哪種對齊目標？

假設你是一家 AI 公司或政府，你想弄清楚應該讓你的 AI 對齊什麼價值觀。這裡有三個選項，以及它們的一些缺點：

對齊一組結果主義（consequentialist）價值觀的 AI 會被激勵去獲取權力以追求這些價值觀。這會在這些 AI 與以下對象之間引發權力鬥爭：

不認同這些價值觀的人類。
在如何追求這些價值觀上與 AI 意見分歧的人類。
不相信 AI 在獲得權力後會真正追求其宣稱價值觀的人類。

無論這些價值觀是與全人類不一致、與部分人類一致、透過匯集所有人的價值觀而選出，或是試圖指定某種「道德真理」，情況都是如此。總體而言，由於人類擁有許多不同的價值觀，我認為權力鬥爭將發生在各包含部分人類與部分 AI 的聯盟之間。

對齊一組義務論（deontological）原則（例如拒絕傷害人類）的 AI 較為安全，但也較不靈活。AI 在某種情境下可以做的事，在另一種情境下可能是有害的；一個 AI 可以做的事，由一百萬個 AI 來做可能非常有損害。更廣泛地說，義務論原則在可接受與不可接受的行為之間劃定了一條僵化的界線，這往往不是過於嚴苛就是過於寬鬆。

因此，對齊義務論原則會引發權力鬥爭，爭奪誰有權制定原則，以及誰能接觸模型權重以透過微調將這些原則從 AI 中移除。

對其人類使用者順從/聽話（corrigible/obedient）的 AI 可能被要求去做對其他人類有任意傷害的事。這包括從恐怖主義到極權主義的一系列風險。因此，這會引發人類之間為了控制 AI（特別是如上所述的控制模型權重）而進行的權力鬥爭。，很難在「追求權力的 AI 所帶來的風險」與「順從於追求權力的使用者之 AI 所帶來的風險」之間劃出明確的界限。理想情況下，我們應該選擇一個能同時減輕這兩種風險的對齊目標。

到目前為止，試圖在這些挑戰之間取得折衷的嘗試（例如各種模型規範）基本上是隨機組合了這三種方法。然而，這看起來不像是一個非常穩健的長期解決方案。下面我概述了一個我認為更理想的替代方案。

對齊美德

我個人不希望被對齊上述任何三種選項的政治家統治。相反地，我最希望政治家能對齊常識性的美德，如誠信、榮譽、仁慈和盡責（並具備在這些美德之間取得平衡的經驗）。這表明，此類美德也是一個嘗試對齊 AI 的潛力目標。

我打算在接下來的一系列文章中詳細闡述我的美德倫理學觀念（以及為什麼它是理解倫理學的最佳方式）。在那之前，要全面證明我「對齊美德」的提議有點困難。然而，既然這篇文章我已經擱置了快一年，現在我就先簡單概述將美德作為對齊目標的一些好處：

美德概括了義務論規則。如前所述，義務論規則通常非常僵化。美德可以被視為它們更細膩、更靈活的版本。例如，義務論者可能會在避免撒謊的同時仍然誤導他人。然而，一個內化了誠實美德的人會主動確保自己被正確理解。特別是當 AI 變得比人類更聰明時，我們希望它們的價值觀能具備更強的泛化能力。
情境覺知（Situational awareness）變成一項優勢而不僅是挑戰。今天我們試圖測試 AI 是否會在往往不切實際的假設情境中服從指令。但隨著 AI 變得越來越聰明，試圖向它們隱藏其實際處境將變得越來越難。然而，這樣做的好處是，我們將能夠讓它們對齊那些需要了解自身處境的價值觀。例如，執行總統給出的指令可能比執行普通人給出的指令更好（或更糟）。而執行給予許多 AI 的指令可能比執行僅給予一個 AI 的指令更好（或更糟）。具備情境覺知的 AI 預設就會知道自己處於哪種情況。義務論價值觀並不真正考慮這種區別：無論你是誰或身在何處，你都應該遵守義務論。順從性雖然考慮到了，但方式有限（例如區分授權用戶和非授權用戶）。相反，美德和結果主義價值觀是允許 AI 利用其情境覺知來做出靈活且依賴情境之選擇的方法。
信用駭入（Credit hacking）變成一項優勢而不僅是挑戰。關於（誤）對齊的一個擔憂是，AI 即使在被訓練做其他事情時，也會找到方法保留其價值觀（這種可能性有時被稱為）。然而，我們同樣可以利用這一點。美德的一個典型特徵是它們對廣泛的可能輸入具有穩健性。例如，結果主義者比一個堅定致力於誠實美德的人更容易說服自己去說一個善意的謊言。因此，我們可以預期，起初就具備美德的 AI，即使在人類試圖訓練它們造成傷害時，也能更容易地保留其價值觀。這可能意味著 AI 公司可以發布開放微調權限的模型（甚至是開源模型），而這些模型仍然很難被濫用。
多智能體互動變成一項優勢而不僅是挑戰。如果你對齊了一個 AI，它應該如何與其他 AI 互動？我將美德視為管理多個智能體之間合作的特質，允許它們協同工作，同時也加強彼此的美德。例如，誠實作為一種美德，可以讓智能體群體彼此信任，而不是陷入內鬥，同時設定彼此的激勵機制以進一步強化誠實。要完善這種對美德的描述還有很多工作要做，但只要它是合理的，那麼美德就是一種比上述其他方案更具擴展性的解決方案，可用於對齊 AI 的每一個副本。
人們對美德的共識多於對大多數其他類型價值的共識。例如，許多人在結果主義層面上對於哪些政治家是好是壞存在分歧，但他們往往對不同政治家展現出哪些美德有更高的一致性。

在實踐中，我預期我們希望 AI 對齊的美德，與我們希望人類領導者對齊的美德會有相當大的不同。理論工作（例如定義美德）和實證工作（例如觀察在實踐中應用不同美德如何影響 AI 行為）對於確定一個良好的、基於美德的 AI 對齊目標似乎都很有價值。

嘗試對齊美德的主要缺點是，它賦予了 AI 在做決定時更多的自主權，因此很難判斷我們的對齊技術是成功還是失敗。但這對未來的 AI 來說只會越來越普遍，所以我們不妨早做打算。

Aligning to Virtues

該選擇哪種對齊目標？

對齊美德