對齊樂觀主義的闡釋

Lesswrong

28 天前

AI 生成摘要

我認為目前的 AI 發展顯示，我們可能在危險的高階推理能力出現之前，就先透過像 LLMs 這種「笨拙」但強大的模型實現轉型，這為對齊樂觀主義提供了理據。這暗示第一批具經濟變革能力的 AI 可能並不具備懷疑論者先前認為不可避免會綑綁出現的危險能力。

有些人對對齊（alignment）變得越來越。但從懷疑論或高 p(doom)（毀滅機率）的角度來看，這種樂觀情緒似乎缺乏理據。

「Claude 很友善，而且多少能處理道德哲學」這點，完全無法解決以下擔憂：大量的長程強化學習（RL）加上自我反思，將導致產生不對齊的結果論者（參見）。

因此，我認為那些隨性的對齊樂觀主義者在論證自己的觀點方面做得並不好。儘管如此，在目前的 AI 發展軌跡中，似乎確實存在著某種樂觀的更新。

目前模型的強大程度，以及我對它們的基本信任程度，確實有些瘋狂。矛盾的是，這種信任大部分源於能力的缺失（目前的模型即便嘗試，現在也無法奪取權力）。

……而我認為這就是正向的更新。在直覺上，第一批能帶來經濟變革的 AI 系統在許多方面可能非常愚蠢，這點感覺非常合理。

慢速起飛（Slow takeoff）意味著我們將首先獲得最愚蠢的變革性 AI。（Moravec's paradox）也導向類似的結論。將大型語言模型（LLMs）稱為「」可能是一種 AI 否認主義的形式，但其中仍包含一個重要的事實。如果在於文化，那麼或許文化(++)就是你所需要的一切。

當然，令人擔憂的是，在我們擁有愚蠢的 AI 系統後不久，我們就會擁有沒那麼愚蠢的系統。但根據我的理解，MIRI 那類人曾懷疑，如果不捆綁危險的能力，我們是否根本無法獲得具有變革性的東西。我認為 LLMs 及其衍生產品已經提供了充分的證據，證明我們可以做到。

An Explication of Alignment Optimism