我們對代理機制感到困惑

Lesswrong

11 天前

AI 生成摘要

我批評「我們對代理性感到困惑」這句話僅是人工智慧安全研究文化中的一種圈內信號，並認為這誇大了我們的無知，也誤判了我們現有知識體系的本質。

認識狀態：對代理人基礎（agent foundations）研究文化（我深入參與其中）的推測，以及關於「我們對代理人感到困惑」這一點的探討，對此我不確定。我將預設這是一個常見的說法，任何屬於相關圈子的人應該都對此感到熟悉。

「我們對代理人（agency）感到困惑」這句話，通常伴隨著「極度」、「深度」或「危險地」等變體，是某種 AI 安全研究文化的常見成員識別信號。粗略地說，這是圍繞著 MIRI 形成的代理人基礎研究計畫的文化。^() 這句話通常被用作推遲 AI 開發的論據，直到完成某些數學研究（特別是在學習/決策理論方面）。

我發現這句話在多個層面上令人感到不安。

作為文化信號

既然我聲稱這句話（除了其字面意義外）具有圈內信號的功能，那麼很自然會想知道這裡的「我們」指的是誰。

我相信其意圖是「我們 = 每個人」。我認為，要自信地聲稱每個人都對代理人感到困惑，需要相當深厚的學術造詣。我對理性主義者（rationalist）文化的一個普遍不滿是那種獨行俠/局外人的態度，這種態度強調聰明才智勝過學術研究，並且通常低估了學術界有時緩慢但具累積性的進步。^() 我將在後面的章節討論這句話在（通常預期的？）「我們 = 每個人」解釋下是否屬實，在本節之外，這被視為預設解釋。

另一個自然的解釋是「我們 = 人類」，這有本質上的不同，因為人類經常對許多個人（通常是整個專業領域）清晰理解的事情感到困惑。這將暗示截然不同的干預措施（例如教育、傳播）。有趣的是，MIRI 現在正專注於此類干預。可以說，MIRI 對代理人的困惑程度遠低於人類，至少足以認識到沒有人準備好安全地構建人工超智能（ASI）。我認為這通常不是其本意，因為這句話通常是為了支持某些特定研究議程的相關性，而不是為了傳播努力。

或者，「我們」可能指代理人基礎社群，或者僅僅是「我」，這將是一個更狹隘但未必更正確的主張。諷刺的是，我認為這種解釋的反面往往承載著重任：「與我們不同，前沿實驗室對代理人過於困惑，以至於無法被信任去開發 ASI。」

在什麼意義上感到困惑？

「困惑」（confused）這個詞的選擇是圈內信號的一部分，讓人聯想到。

在這裡使用這個詞真的合適嗎？我覺得它不太契合。

「困惑」超出了「不確定性」或「無知」等替代詞。它暗示我們甚至沒有正確的概念來開始討論代理人（這大致是 John Wentworth 在所主張的）。

我認為這不僅是誇大其詞，而且可能（約 65% 的信心）是對我們認識狀態的錯誤描述。

說它是誇大其詞，是因為實際上已有大量從各種角度（統計學、決策理論、經濟學、博弈論、人工智能、學習理論、算法概率等）研究代理人的文獻，這些文獻共享許多強大的共同概念和原則（如概率論）。雖然一個人很難深入研究每一個領域以清晰地看到其中的聯繫（我也不聲稱自己已經做到了這一點），但這是可以做到的，而且現有的知識似乎極有可能足以闡明（大部分）必要的概念。我很難將這種認識狀態視為「前範式」（pre-paradigmatic）的。至少，似乎很難排除「代理人」是相對複雜且多方面的，而不是「令人困惑」的。

我更強烈的主張是，「困惑」不僅在程度上是錯誤的描述，在性質上也是。似乎「對代理人的困惑」就像「對（生物）生命的困惑」，這並非偶然。生命有許多底層原則（如達爾文進化論）。（大多數？）生命形式之間也有許多共同點，例如攜帶編碼為 DNA 的遺傳信息。熱力學對生命形式能實現的目標也有共同的限制。但也有許多多樣化的生命形式，它們使用一系列獨特的生物機制，有些（對我們來說）比其他的更令人困惑。我認為代理人也是如此；它以各種形式、通過各種有趣的機制出現，這些機制傾向於以相似的方式解決共同的問題，同時受到某些硬性限制。更多細節請參見我的系列文章。

對什麼感到困惑？

雖然我不會說我們對代理人感到困惑，但我認為我們對代理人的某些方面有很多具體的困惑。最好精確地描述我們在談論哪些困惑。如果代理人基礎研究的目標是解決 AI 安全問題，那麼最好專注於那些似乎與該努力相關的困惑。^()

例如，溝通和概念的理論可能有助於價值對齊和可解釋性。設計一個強大但模糊的學習算法，比設計一個具有我們實際可讀知識庫的強大學習算法要容易。我認為我們對於這究竟意味著什麼，甚至是否可能（以及在什麼意義上可能），仍然感到困惑。

從決策理論的角度來看，可修正性（corrigibility）和其他形式的非野心性（unambitiousness）似乎也很困難，甚至令人困惑，但對於 ASI 在實踐中進展順利至關重要。一個系統可靠地允許另一個系統進行修正意味著什麼？

事實上，所有這些主題似乎都屬於 Abram Demski 可能稱之為「理解信任」的一般類別。粗略地說，溝通關乎我們對 AI 系統的信任，而可修正性關乎它對我們的信任。這種聯繫的精確本質本身（對我來說）似乎也令人困惑。

我認為經驗豐富的代理人基礎研究人員已經內化了這些教訓，而我所知道的既定議程幾乎都切分出了某些與安全相關的特定代理人困惑。^() 但整體的論述應該得到改進。

^() Gretta Duleba 將其描述為「對齊很難集群」（The Alignment-Is-Hard Cluster），但我敢肯定，「我們對代理人感到困惑」這句話比「對齊很難」是更好的成員身分貝氏證據。
^() Dan Murfet 向我強調了這一點。
^() 當然，追隨好奇心是一種有用的局部研究策略。但這種論點經常被用來作為逃避（cope）的藉口。
^() Vanessa Kosoy 和 Alexander Appel 是我想到的例外，因為他們似乎在直接挑戰對代理人的整體困惑。但他們非常擅長此道，我認為他們（特別是他們）應該繼續做他們正在做的事情。採取這條路徑的研究人員正確數量並非為零。

We are confused about agency

作為文化信號

在什麼意義上感到困惑？

對什麼感到困惑？