I reflect on the historical friction between the alignment and ML communities, arguing that trying to force alignment concepts into the ML ontology was a mistake that caused confusion and wasted time. I now believe we should have protected alignment ideas from premature exposure to mainstream ML thinking and worry that the current alignment community is repeating similar ontological mistakes.
從歷史上看,對齊社群很難與 ML 社群接軌,因為對齊社群使用的是一套截然不同的本體論——包含如內部對齊與外部對齊(inner vs outer alignment)、中層優化器(mesa-optimizers)、可修正性(corrigibility)、情境覺知(situational awareness)等概念。即使是像「以自然語言給予 AI 指令」這樣簡單的概念,在 ML 研究者的本體論中也常會引發某種「類型錯誤」(type error),因為在他們的觀念中,目標應該是透過設定代理人的獎勵函數來指定的。
情境覺知的概念是另一個在經典 ML 本體論中不太能理解的概念。我的印象是,Ilya 開始認真對待情境覺知(在 Ajeya 於 OpenAI 發表相關演講之後),是他轉向對齊研究的主要驅動力之一。遺憾的是,Ilya 隨後關於 的研究仍深陷於 ML 本體論中,在我看來,這讓它從一開始就顯得不樂觀。(我不記得當時是否公開表達過這一點,但在 OpenAI 內部我相當持批評態度,特別是對 Collin Burns。回想起來,我希望當時能更明確地公開表示我對這項研究並不感到興奮。)
這些是過去幾年中,對齊本體論因更能描述大型語言模型(LLM)而勝過 ML 本體論的眾多例子中的兩個。作為回應,ML 本體論已擴展到包含「給予 AI 指令」和「情境覺知」等概念,但並非以任何有原則的方式進行——它有點像是硬塞進去的,而大多數人並未察覺其中的混亂。(例如,如果你問 為什麼 AI 會遵循指令,或者情境覺知是如何發展的,我認為大多數 ML 研究者會給你相當混亂的答案。)
從歷史上看,在令人信服的實證證據出現之前,有時是有可能讓對齊概念在 ML 本體論中變得易於理解的,但這通常是一個非常費力且吃力不討好的過程。ML 研究者會提出在對齊本體論看來極其吹毛求疵的質疑。部分原因是跨本體論溝通的困難,但部分也是由於動機性推理(motivated reasoning),試圖尋找理由來拒絕對齊支持者提出的主張(例如,我認為 就是一個很好的例子)。即使 ML 研究者同意某個對齊概念在原則上是合理的,他們通常也很難將其後果傳播到其本體論的其他部分——部分原因是這樣做會對他們的身份認同和職業規劃產生重大影響。
與此同時,對齊社群會因為試圖調整其概念以使其對 ML 研究者更有意義,而浪費時間,有時甚至讓自己變得更混亂。「」就是一個很好的例子,因為內部失配(inner misalignment)的問題更多在於「正確的泛化」並非一個定義明確的概念,而不是代理人學會了「泛化錯誤」。MIRI 關於 的論文似乎也不太有用,特別是與他們的其他研究相比(儘管與目標泛化錯誤不同,我懷疑它是否讓更多人感到混亂)。Owain Evans 的「」是我不太確定的一個案例,因為用 ML 術語來表達這個想法,似乎確實幫助了他和其他人對此進行有趣的實證研究。
為了明確起見,我自己也做了很多這類工作。在某種意義上,「試圖讓對齊概念在 ML 本體論中變得易於理解」是我那篇 論文的主要目標,自從開始從這些角度思考後,我對該論文價值的評價已大幅下調。回想起來,我最想告訴過去的自己(以及對齊社群的其他人)的是:少關注 ML 本體論。遺憾的是,我的感覺是 OpenPhil 和其他各個團體(包括過去的自己)都非常努力地推動與 ML 本體論的接軌,我認為這是一個重大錯誤。
與 ML 社群接軌仍有其價值——我認為主流 ML 研究者擅長推動對齊研究者變得更精確,並更紮根於現有文獻。但廣義上來說,將對齊想法視為 會更好,因為過早接觸 ML 思維會對其造成傷害。
我懷疑許多 AI 安全研究者會對我上面討論的大致輪廓產生共鳴。下面是我預期會更具爭議的部分。
遺憾的是,今天的對齊社群中,有很大一部分似乎處於與 2010 年代 ML 社群類似的境地。像 、、、、、、 等概念,在我看來都足夠模糊且/或混亂,以至於當它們成為你本體論的重要組成部分時,很難清晰地思考 AGI。
這是一個相當廣泛的主張,所以讓我說得更具體一點。假設我們粗略地將 AI 安全社群分為與有效利他主義(EA)關聯較深的部分(大多數實驗室安全團隊、大多數在 Constellation 辦公的組織、OpenPhil 等),以及與 Less Wrong 關聯較深的部分(例如 上的幾乎所有人)。我認為我上述的診斷對 LW 安全部分而言部分成立,但對 EA 安全部分而言則強烈成立。那些正在產生新穎且重要的 AGI 相關概念的人,幾乎都與 EA 安全脫鉤,儘管那裡才是大部分資金和工作機會所在:
有一種思路是從模型的人格(personas)和身份(identities)來理解模型。我會指出 、、 和 是在這個領域發展出想法的一些 EA 安全「局外人」。雖然其中一些概念正被 EA 安全內部採納(例如 ),但本體論的鴻溝仍然大到足以引起 。
過去(且現在繼續)做了很多精彩的思考,儘管 EA 安全對代理人基礎持強烈懷疑態度。
Jan Kulveit 及其合作者可能是與 EA 安全關係最密切、且我認為正在進行強有力的新穎思考的人(儘管 )。
在理解支配整個社會以及 AI 安全社群的社會政治動態方面做得非常出色。這個集群既與 EA 安全脫鉤,也與 LW 安全脫鉤。
與最後一點相關:我個人感到與 LW 安全相當脫鉤,部分原因是 LW 安全最近非常關注 AI 治理,但在思考政治方面有一套 截然不同的本體論。事實上,我最初開始寫這篇文章是為了類比我如何看待自己與 LessWrong 社群在政治方面的關係。然而,對齊領域的本體論鴻溝似乎足夠重要,因此我決定將這篇文章完全集中在它們身上,而將政治類比留給另一篇貼文或短評。