打造具備類人哲學思辨能力的人工智慧

Lesswrong

29 天前

AI 生成摘要

我認為打造具備「類人哲學能力」的人工智慧對於確保其在面對新情境時能安全地泛化至關重要，因為哲學是將人類概念與倫理擴展至分佈外情境的核心工具。

音訊版本（由作者朗讀）請見，或在您的播客應用程式中搜尋「Joe Carlsmith Audio」。

這是「」系列文章中的第九篇。我希望每一篇文章都能相對獨立地閱讀，但您可以參考，以了解目前已發布文章的摘要，以及關於本系列的更多資訊。

1. 前言

在系列文章進行到這裡時，我已經勾勒出我目前對於建立成熟 AI 對齊科學的大部分構想。但我留下了一個我認為值得單獨討論的特定主題：即建立能夠進行我所謂的「類人哲學」（human-like philosophy）的 AI 之重要性。

我想單獨討論這個話題，是因為我認為關於 AI 對齊的討論往往籠罩在某種感覺之下，即 AI 對齊不僅僅是一個「科學」問題。更確切地說：它在某種程度上也是一個哲學（或許尤其是倫理學）問題；它的困難至少部分源於哲學本身的困難；而解決它可能需要某種非常高深的哲學成就。

關於這種想法有很多不同的版本。我在這篇文章中的部分目的，就是釐清哪些版本是我接受的，哪些則不是。在我的中，我討論了一個我不接受的版本——即我們需要建立那種我們信任其能成為「宇宙獨裁者」的 AI，因此其「經反思後的動機」必須「完全正確」。在下文中，我還會提到其他幾個我不接受的版本。

我也一個我確實接受的「哲學對 AI 對齊很重要」的版本——即對齊的成功可能需要大量的廣義「概念研究」（conceptual research），也就是那些無法輕易透過經驗反饋循環或形式化方法來評估的研究。但我在本文中所指的哲學，其範疇比「概念研究」更窄。我在此特別感興趣的是一個更具體的觀點，關於哲學在 AI 對齊中扮演的角色——這也是我所接受的觀點，且我認為它指明了一些重要的研究方向。

這裡的基本想法是：哲學與分佈外泛化（out-of-distribution generalization）密切相關。也就是說，哲學是我們決定如何將概念和實踐擴展到新情境的核心——而 AI 將不得不大量進行這類工作。既然我們希望 AI 能以適當良好的方式（即：安全且被妥善誘導的方式）進行分佈外泛化，那麼：

能力（Capability）：它們需要具備足夠的能力，來進行人類在反思後會認可的那種哲學（這就是我所說的「類人哲學」^()），且
傾向（Disposition）：它們需要具備足夠的傾向，去實際執行特別是那種形式的哲學。

這個挑戰有多難？嗯，隨著 AI 足夠先進，我們最終大概會預設獲得能力^()（儘管早一點獲得可能比晚一點更重要）。因此，我認為傾向應該是我們最擔心的問題。而傾向實際上只是另一個誘導（elicitation）問題——具體來說，它是從具備研究能力的 AI 中，誘導出足夠高品質的「概念研究」問題的一個版本。所以我並不認為這個挑戰在結構上與我之前討論過的挑戰有何不同。

但它可能仍然更難。例如，如果類人哲學（尤其是倫理學）即便相對於其他類型的概念研究也特別難以評估，且/或它更多是人類特有的而非客觀正確的，那麼這可能是一個我們需要特別謹慎努力的領域。我在下文中會稍微說明我認為這種努力可能呈現的樣貌。但我也希望這篇文章能促使人們對此主題給予進一步的關注。

我在 Anthropic 工作，但在此僅代表個人立場，不代表雇主，Anthropic 的公關部門也未審閱此文。特別感謝 Peter Favaloro、Ben Levinstein、David Lorell 和 John Wentworth 的討論。

2. 哲學作為分佈外泛化的工具

哲學家做什麼？嗯，很多事情。^() 不過，其中一件事是試圖分析並系統化我們對各種人類概念的理解，以便釐清這些概念如何應用於各種情況，包括我們通常不會考慮的異常情況。因此，例如，哲學家可能會提出對「知識」概念的分析（例如「得到辯護的真信念」），然後測試它如何應用於例如。或者哲學家可能會提出一種正確行為的理論（例如「最大化淨快樂」），然後測試它在例如中會指示如何行動。

這個過程通常涉及一種來回對話：一邊是我們對於「知識」或「道德」等概念應用於特定案例的直覺判斷，另一邊則是哲學家提出的更明確且系統化的分析。通常，直覺被賦予實質但有限的權重，因此在必要時可以被修正或捨棄；而除了與直覺契合之外的其他考量（例如高層原則本身的簡約性和直覺吸引力）也可以發揮作用。其目標是最終達到一種「反思平衡」（reflective equilibrium），使個人的直覺與高層分析/理解達到最佳的和諧——儘管哲學家在最終認可哪種形式的和諧上仍可能存在分歧。

為什麼這種實踐與 AI 對齊相關？嗯，原因之一是它看起來非常像是在嘗試處理與分佈外泛化相關的問題。也就是說，我們的直覺和現有實踐為我們提供了一些關於概念應用於有限範圍案例的初始基礎，這類似於我們獲得「訓練數據」的「分佈」——但當我們擴展到其他不太熟悉的案例時，我們變得不太確定概念該如何應用，且不清楚特定的應用方式是否能以我們想要的方式與其他應用保持一致（而相關的一致性標準本身也可能是待定的）。^() 良好的哲學被認為能在此方面提供幫助——儘管有時這需要修正我們現有的實踐，而不僅僅是擴展它們（例如，也許你以前認為吃肉是可以的，但後來你決定那是錯誤的）。

更重要的是，分佈外泛化在 AI 對齊中至少扮演了某些關鍵角色。

至少，正如我在「」中所討論的，動機控制的成功需要從安全輸入到危險輸入在第一次安全關鍵嘗試時就能成功泛化。
此外，被 AI 改變的世界在許多方面可能與我們的世界大不相同；我們需要弄清楚如何將我們的概念和實踐擴展到那樣的世界；而我們很可能希望得到 AI 的幫助來完成這件事。
最後，在某種程度上，如果我們希望 AI 本身使用類人概念或類似的概念（例如「有幫助的」、「無害的」、「誠實的」等）來建構其決策，這些 AI 很可能會面臨與人類習慣做出的決策截然不同的決策（例如，因為 AI 擁有的資訊和能力遠超我們），而我們希望它們能以我們認可的方式將相關的人類概念擴展到這些決策中——包括在它們無法輕易尋求人類幫助的情況下（例如，因為人類無法理解相關決策；或者因為關於是否/如何尋求人類幫助的選擇本身就牽涉到爭議中的問題）。

此外，在許多情況下，似乎合理的是：(a) 沒有客觀正確的方法來處理有問題的分佈偏移，(b) 我們仍然希望它以某些方式而非其他方式被處理，(c) 我們對我們希望它被處理的具體方式並不十分了解，以及 (d) 我們希望它被處理的方式可能相當複雜且具有偶然性。例如，假設你正試圖弄清楚將豬用於醫學實驗在道德上是否可行。是否存在一種單一正確的方法來將我們現有的道德實踐擴展到這個案例？目前還不清楚。當然，不同的價值體系在這個案例中可能會有不同的裁決。但更微妙的是，在給定價值體系中，擴展、精煉和推演相關概念的不同方式也可能產生不同的裁決。但我們可能仍然傾向於某種特定的擴展/精煉/推演這些概念的方法——不是因為它是客觀正確的，而是因為在某種意義上它是「我們的」。而我們可能對「我們的方法」是什麼並沒有清晰的認識。

這就是為什麼我將我感興趣的哲學類型標記為「類人」而非僅僅是「好」或「正確」。也就是說：雖然可能存在某種客觀正確的方法來進行 AI 對齊所需的所有分佈外泛化中的哲學思考，但我認為至少這些哲學中的某些實質組成部分（例如涉及倫理的部分）對人類來說是相當具有偶然性的。如果是這樣，這意味著教導 AI 擅長哲學可能不像教導它們擅長科學或數學（在這些領域，人們可能認為所有理性存在者更有可能趨向於相似的實踐），而更像是將它們同化到人類特有的特定推理和反思模式中。

當然，一旦我們承認我們希望 AI 進行的哲學取決於人類心理的偶然性，我們也可能承認其他偶然性可能導致不同的人認可不同類型的哲學，即使是在反思之後。這個問題與許多 AI 對齊討論中提到的「我們的價值觀」或「人類價值觀」直接類比，彷彿在這方面存在某種特權共識，儘管事實上顯然並不存在。也就是說，正如人類可能有不同的對象層級（object-level）價值觀，不同的人也可能以不同的方式精煉/推演/反思這些價值觀。但是，就像在對齊問題的背景下一直以來的情況一樣，如果不同的人希望將 AI 「轉向」不同的方向，相關的計畫就會變得相對於那個特定方向——但討論中涉及的許多結構性動態將保持不變。或者換句話說：「誰的哲學版本？」在結構上類比於「但與誰對齊？」。在這兩種情況下：我都不採取強硬立場（或者至少，除了在這兩種情況下都假設相關的「誰」是人類或一組人類之外）。

3. 哲學對 AI 對齊重要性的一些限制

這一切都表明，AI 能夠良好地進行類人哲學對 AI 對齊可能很重要，而且要做到這一點可能至少有些棘手。然而，在進一步探討這個想法之前，我想指出一些我認為可能過度解讀它的方式——我認為 AI 對齊討論中的某些部分有時會陷入這些誤區。

我在上一篇文章中討論過這類問題的一個版本，即建立「主權 AI」（sovereign AIs）的想法，我們信任這種 AI 能夠進行無限程度的反思、自我改進和自我改變，然後針對該過程產生的價值觀進行極高強度的優化。取決於關於「」及相關脆弱性形式的各種問題，建立一個讓你信任到這種程度的 AI 可能需要極高程度地成功使其傾向於進行類人哲學（且可能需要從極其類人的起點開始）。但我認為這類 AI 不應該是我們的重點。相反，作為初步近似，我認為我們應該專注於建立那些遵循我們指令、不會失控，且能適當推動並加強文明進程的 AI，這些進程能最有效地幫助我們最終創造美好的未來——包括處理未來關於 AI 對齊、哲學等問題的進程。

與此相關：早期關於 AI 對齊的一些討論有時暗示，AI 動機/指令中涉及的任何概念都需要對極高程度的優化具有魯棒性——因此，或許需要以極高程度的精確性和準確性來定義/實現。例如，為什麼我們即使想造一個迴紋針最大化器也造不出來，因為它的優化不可避免地會導向迴紋針的「邊界案例」，而它對這些案例的分類會與我們不同；如果我們試圖讓它詢問我們某個物體是否為迴紋針並看我們是否說是，我們在「詢問」、「我們」和「說是」等概念的邊界案例上也會遇到同樣的問題。在某種意義上，這類廣義的問題確實是我本文關注的核心。但正如我在上一篇文章中所討論的，正如我不認為我們需要建立價值觀對任意程度優化都具備魯棒性的主權 AI，我也不認為建立安全、遵循指令的 AI 所涉及的價值觀和指令需要對任意程度的優化能力具備魯棒性。相反，它們只需要對具備特定能力水平的 AI 在實踐中實際應用於該概念的優化強度具備魯棒性即可。而且我預期，如果相關概念不被「最大化」——例如，如果一個 AI 透過「誠實」的概念來調節其行為，而不是試圖變得極度誠實——這也會有所幫助，因為最大化似乎特別容易將概念推向怪異的邊緣案例（儘管：「」問題也會產生其自身的邊緣案例問題）。^()

更廣泛地說，有時當人們爭論哲學對 AI 對齊的重要性時，他們會指出美好未來需要解決的所有哲學問題——例如關於道德受體地位、意識、決策論、元倫理學等問題。要澄清的是：我同意這些問題非常重要，美好的未來很可能需要解決它們，我們需要早期的超智慧在引導我們走向這樣未來的道路上扮演正確的角色，而進行適當的類人哲學很可能在其中發揮作用。但我認為這與「現在就需要解決這些問題」，以及「需要『元解決』（meta-solve）它們」（即：即使我們還沒解決，也要對解決它們的樣貌或我們會遵循的程序有信心）是非常不同的。我們需要走好接下來的幾步，但我們不需要知道完整的路徑，也不需要知道它通向何方。事實上，這一直是我們的處境——我不認為通用人工智慧的出現改變了這一點。事實上，我認為對齊討論中的某些流派通常太過傾向於將「解決對齊問題」等同於「提前間接解決整個未來」——即執行某種與 AI 相關的行動（安裝一個完美的獨裁者？），從而使我們現在就知道未來會是美好的。我認為這個目標顯然太過寬泛，且可能導致在思考需要完成的工作時採用錯誤的標準。

我還認為，區分哲學在確保足夠的安全性（即 AI 不會發生有問題的失控）與足夠的誘導（即 AI 以理想的方式執行任務）中的角色是很重要的。在我看來，失控行為通常比其他類型的非理想任務執行具有更高的風險，因為足夠成功的失控行為會導致不可挽回的災難。但許多最成問題的失控行為形式——即殺死所有人類、自我外洩、隱瞞動機等——並不需要特別高深的哲學就能被歸類為不理想。雖然各種形式的能力誘導確實會牽涉到哲學問題，但在許多情況下，這些問題並不具有生存風險。而且在許多情況下，當非失控的 AI 真的不確定如何處理某個哲學問題時，它們很可能可以直接詢問我們。

事實上，在思考哲學問題在 AI 對齊中的角色時，我認為重要的是要記住，哲學的風險在許多方面可能低於生存威脅。例如，通常情況下，當一個概念如何擴展以涵蓋某個「邊界案例」變得不清晰時，問題本身也開始讓人覺得風險降低了——或許是因為沒有答案，或者或許是因為既然它是邊界案例，使其成為邊界案例的特徵也使其不那麼重要。因此，如果你重視「生命」，而你遇到了一個「生命」的邊界案例，例如，可能關於這個細胞自動機是否具有生命並沒有答案，因此你對它的投入也應相應減少；或者即使它最終被算作「活的」，那些使其更像邊界案例的特徵也應該使其在你所重視的更典型的生命形式中佔據較少的價值。

然而，即使在邊界案例之外：有時我們在哲學問題上出錯，但生活仍會繼續。事實上，我們很可能一直都在犯大量的這類錯誤。這可以從顯然微不足道的情況（「熱狗是三明治嗎？」）到日常的倫理選擇（「那樣做是不誠實嗎？」）再到激烈辯論的政治話題（「胎兒是人嗎？」）。在通用人工智慧出現後也是如此——例如，AI 會在哲學問題上出錯，它們會導致我們出錯，等等。這些錯誤可能代價高昂，但只有當它們更永久地引導我們走上錯誤道路時，它們才具有生存性的代價。

4. 哲學何時具有生存性？

超智慧以錯誤的方式進行哲學思考，何時可能導致我們更永久地走上錯誤道路？對我來說，一個顯著的例子是「操縱」（manipulation）的概念。因此：

在我看来，被操縱與不被操縱之間的區別，似乎確實是我們在反思後非常在意的事情，且具有生存風險——例如，如果人類最終被 AI 系統性地操縱，那將是一場生存災難。
我認為我們目前對於哪些與人互動的模式屬於有問題的操縱，哪些屬於適當的尊重自主權，其哲學理解還相當不發達。雖然某些案例（例如直接洗腦）是顯而易見的，但許多案例（例如情感修辭）則不然。
我認為，與未受輔助的人類互動且致力於不進行操縱的高能力 AI，很可能必須不斷處理關於操縱的困境，而這些困境相對於我們熟悉的人類實踐來說是嚴重偏離分佈的。特別是，這些 AI 在預測和控制人類對其言行的反應能力方面，將很快相對於人類獲得激進的賦能——遠超過例如人類父母相對於子女、教師相對於學生、廣告商相對於消費者等。
在許多情況下，我認為這些 AI 可能無法「直接詢問人類」哪些行為算作有問題的操縱。特別是：
- 許多相關案例可能太過複雜，人類無法理解。也就是說，也許一個超智慧正在決定與一百萬個機器人透過某種高度複雜的數據結構進行的某種瘋狂互動形式是否算作有問題的操縱，但它無法向人類解釋這種情況。
- 可能即使人類能夠理解並為相關案例提供指導，在實踐中 AI 也無法獲得相關形式的輸入——例如，時間不夠。
- 向人類解釋情況的行為本身，可能就會牽涉到爭議中的操縱問題。也就是說，AI 可以察覺到，如果它以方式 X 呈現問題，人類會給出答案 A，但如果它以方式 Y 呈現問題，人類會給出答案 B，依此類推。

因此，操縱對我來說似乎是一個案例，即使是相當基本的安全和誘導形式，也要求超智慧 AI 既具備能力又具備傾向，能以我們認可的方式擴展我們的概念和倫理實踐，包括擴展到我們無法理解的案例。

我也認為很可能還有其他類似的例子。例如：

我認為關於 AI 「誠實」的問題很可能涉及與操縱類似的問題。
我認為我們可能希望 AI 在許多人類無法輕易理解或參與的背景下，做出關於政策、倫理等方面的決定。如果對其中一些問題的錯誤答案被有效地「鎖定」，或者如果答案隨著時間推移未得到充分修正，或者如果好的政策決定取決於至少對不同立場擁有合理的信心但 AI 卻沒有，那麼這可能是生存災難性的。在這裡，關於太空殖民動態或後 AGI 全球治理的早期決策，可能是涉及這類問題的背景範例。
在某些問題上（例如決策論），似乎合理的是，如果 AI 以錯誤的方式處理這些問題，這可能會在不同形式的衝突、談判等動態背景下產生災難性影響。
更廣泛地說，既然安全、超智慧 AI 的一個核心用途是幫助我們的文明變得「更明智」，那麼如果事實證明超智慧本身必須「真正明智」是很重要的——甚至是生存攸關的重要——這也就不足為奇了。雖然哲學肯定不是智慧的唯一組成部分，但我預期它有其發揮作用的地方。

因此，總體而言，儘管我上面討論了哲學在 AI 對齊中作用的局限性，我確實認為我們的 AI 以我們認可的方式進行哲學思考仍然很重要。

5. 類人哲學的挑戰

那麼，建立能以適當類人方式進行哲學思考的高級 AI 有多難？

5.1 類人哲學與類人動機之間的關係

這裡的一個問題是，這個挑戰與建立具有類人動機的 AI 挑戰之間的互動——我在中討論過這個挑戰，並論證了 AI 動機中的某種程度的異類性（alien-ness）與安全的指令遵循是相容的。事實上，正如我不認為 AI 動機需要完全像人類（或在其他方面「完全正確」）才能安全一樣，我也不認為 AI 反思、精煉或推演其動機的方式需要完全像人類或完全正確。相反，一如既往，「起點 + 推演」的組合只需要在實踐中重要的輸入上加總為足夠安全的行為即可。因此，正如兩個擁有略微不同的誠實概念和誠實哲學的人在關鍵案例中仍能表現得足夠誠實一樣，一個由某種程度非人類（但仍與人類高度重疊）的誠實概念（「類誠實」）驅動，並使用某種程度非人類的方式來擴展/精煉這個概念（「類哲學」）的 AI，在關鍵案例（甚至是分佈外案例）中可能仍會表現得足夠誠實，即使它在所有案例中並不符合我們標準下的誠實。

話雖如此，我確實認為，正確進行類人哲學最為關鍵的案例，往往也是起點的類人性最為關鍵的案例。這大致是因為這些案例往往是需要對相關概念進行更細微、更微妙應用的「邊界案例」，因此暗示需要更高標準的重疊，無論是在初始起點概念（例如「誠實」對比「類誠實」）還是在擴展/精煉它的方式（例如「哲學」對比「類哲學」）上。更廣泛地說，在許多情況下，起點與推演方法之間的界線並不是特別清晰（例如，並不總是清楚兩個在概念的反思應用上存在分歧的哲學家，是因為他們起始的概念不同，還是因為他們精煉/推演該概念的方法不同，或者兩者兼有）。

從這個意義上說，類人哲學非常重要的案例，也對我在前一篇文章中關於 AI 異類性的一些評論構成了一個重要的修正。也就是說：在某些情況下，即使只是分類某種形式的分佈外泛化是正確還是錯誤，都需要複雜的哲學反思，而正確泛化又具有生存風險，那麼我確實認為，我們委託進行此類泛化的 AI 在類人性標準上通常需要大幅提高，因為我們的概念和實踐中更多微妙之處似乎可能變得相關。

話雖如此，正如我上面討論過的，我確實認為失控行為最典型的例子（例如 Karnofsky 所說的「顯然非預期且危險的行為」）並非如此。^() 這至少暗示了一種操作順序，以最終建立我們信任其能處理敏感、細微的哲學泛化的 AI。也就是說：首先，建立那些不會失控的 AI，並讓它們幫助我們完成那些不需要在動機和哲學上滿足極其嚴苛類人性標準的任務（我認為我之前稱之為「經驗對齊研究」的工作屬於這一類；但更具爭議的是，我實際上認為很多「概念研究」——例如為新型 AI 開發和部署構建穩健的安全案例——也是如此）。然後，如果確實需要在某些領域滿足更嚴苛的類人性標準，就利用這些 AI 來幫助你弄清楚如何處理該問題（例如，嘗試建立滿足相關類人性標準的 AI；透過追求全腦模擬或其他形式來獲得更增強的人類認知；或者嘗試找到一種方法，在處理相關問題時核心地利用更標準的人類認知和決策）。

然而不幸的是，即使將我上面討論過的某些敏感哲學問題（例如圍繞太空殖民的政策制定）推遲到我們擁有可用於在 AI 動機類人性方面取得巨大進展的 AI 為止是可行的，我確實擔心某些其他問題——尤其是操縱——更為緊迫。也就是說：即使在進行進一步對齊研究、全腦模擬研究等背景下，我們與之互動的大多數高級 AI，如果它們認為合適，都很可能處於可以操縱我們的地位。因此，在我們使用這類 AI 時，我們需要它們不會以生存災難性的方式操縱我們。如果這既要求它們由極其類人的「非操縱」概念驅動，又要求它們傾向於以類人的方式精煉和推演該概念，那麼在其中一個或兩個方面的持續異類性確實是一個嚴重的問題。^()

5.2 類人哲學本身有多難？

除了與類人動機的聯繫之外，引導 AI 進行適當類人哲學的挑戰本身有多難？如引言中所述，我認為這個挑戰可以分解為兩個組成部分：

能力（Capability）：創造出具備足夠能力進行人類在反思後會認可的那種哲學的 AI。
傾向（Disposition）：創造出具備足夠傾向去實際執行特別是那種形式的哲學，而非其他形式的 AI。

讓我們依次來看這兩點。

5.2.1 能力

建立具備進行類人哲學能力的高級 AI 有多難？在 AI 對齊領域，傳統的答案是這部分至少不那麼難。畢竟：根據假設，在各方面都優於人類的 AI 在類人哲學方面也會優於人類。因此，例如，面對操縱困境的超智慧將能夠知道人類會如何將其倫理擴展到這種案例——故事的說法是，問題在於它不會在乎。從這個意義上說，在標準的 AI 對齊圖景中，傾向才是核心。

我大致贊同將重點放在傾向上。不過我要指出，如果 AI 哲學能力出現的時機很重要（例如，因為我們關心那些我們正用於的早期、非超智慧系統的對齊形式），那麼我們在教導 AI 類人哲學所涉及的能力上投入多少，可能也會有很大影響。這與本身所涉及的能力有相似之處。也許你最終會獲得這些能力；但你可能希望儘快獲得它們，而且（特別是在能力泛化作用較小、需要更多專門數據和繁重工作的體系中），開發這些能力可能特別棘手。

5.2.2 傾向

那麼傾向呢？我認為這是主要的挑戰：假設 AI 知道如何以類人的方式進行哲學思考，我們如何確保它實際以特別是那些方式進行哲學思考，而不是以其他方式？

在這裡，我目前的看法是，這主要是從 AI 中誘導出良好的概念研究這一廣泛挑戰的一個變體——我在關於的文章中詳細討論過這個挑戰。從這個意義上說，我認為誘導類人哲學所涉及的挑戰，與我之前在系列文章中討論過的其他問題是非常連續的。是否有什麼理由認為它可能具有獨特的挑戰性？

你可能會說，相對於類人哲學，其他形式的概念研究更有可能擁有「客觀正確」（或至少是非常優先且自然的）的答案，即使它們在評估上也面臨類似的困難。因此，例如，也許你承認在為新型 AI 開發建構安全案例時所涉及的概念研究，由於難以進行經驗迭代而難以評估。然而，似乎合理的是，不同的外星物種在這方面會趨向於相似的實踐，因為關於如何進行概念推理以產生對新技術安全性的良好預測，最終存在一個客觀答案（或一組有限的客觀良好答案）。也許對於我之前在文章中標記為「概念性」的其他一些智力領域——例如未來學和政治論述——也可以說類似的話。

目前還不完全清楚為什麼這種差異會使誘導相關能力變得更難，但可以想像一些說法。例如，也許你會說，因為存在客觀正確/優先/自然的方式來進行這些其他形式的概念思考，正確的方式更有可能在其他背景下被預設訓練進 AI 的推理和傾向中，或者當 AI 試圖明確導向該領域時，正確方式會作為一個優先的焦點脫穎而出；而這在哲學背景下則不那麼成立，尤其是在哲學中更具倫理色彩的方面。在這裡，我確實認為我們開始遇到關於人類哲學推理模式到底有多偶然/不自然/非優先的問題，包括在倫理背景下。^() 但我可以看到一些支持獨特擔憂的論點。

與此相關，你可能認為哲學實際上比這些其他概念領域更難評估，因為它甚至更非經驗性。因此，我討論過的其他概念領域——例如未來學、政治論述、新型部署的安全案例——之所以難以進行經驗評估，主要是因為在進行評估時相關的經驗數據難以獲得（例如，你無法在 2025 年輕易評估 AI 對 2027 年的預測；你無法在不看 GPT-7 是否殺死所有人的情況下，評估它不會殺死所有人的論點，等等）。但這使得尋找替代方案變得更容易，幫助你在其他背景下評估類似的主張——例如，收集並評分短期或較早之前的預測，檢查較低風險部署的各種安全案例的有效性等。而在哲學中，尤其是倫理學中，你永遠得不到任何這類經驗反饋。是的，你可以了解哲學/倫理思考如何隨時間變化，以及不同的共識點在哪裡形成，但這些共識點（如果有的話）是否正確則是另一個問題，而且它們讓人感覺遠不如「地面真理」（ground truth）。

因此，總體而言，我確實認為，即使對於具備能力的 AI，誘導類人哲學也可能帶來獨特的挑戰，即使相對於其他形式的概念研究也是如此，特別是當我們開始進入人類更難評估的領域和能力水平（即「超人類的類人哲學」）時。致力於此項工作會是什麼樣子？

6. 致力於此項工作是什麼樣子？

即使事實證明，與其他形式的難以評估的推理相比，建立能夠進行類人哲學的 AI 是一項特別微妙且難以評估的挑戰，我認為我們仍有一系列相當相似的基本工具可用。因此：

頂尖人類水平的範例。一個明確的基準是努力收集並訓練高品質的類人哲學範例，包括在我們最擔心 AI 出錯的背景下（例如操縱）。在這裡，我認為我們應該對「實踐中」發生的哲學推理範例特別感興趣——即一個主體在現實情境中遇到需要將某個概念、原則或倫理框架擴展到新案例的情況——而不是例如大多數學術論文中涉及的更廣泛的理論論證。
相關能力。哲學借鑒了大量其他密切相關的能力，這些能力並非哲學所獨有。邏輯和數學所涉及的能力是一個特別顯著的例子，但其他能力也相關——例如，法律中涉及的廣泛分析推理能力、良好預測中涉及的校準和謙遜、科學和藝術中涉及的創造力、詩歌和文學中涉及的語言和敘事敏感性等等。因此，與這些其他領域相關的訓練和誘導顯然也相當相關。^()
頂尖人類水平的評估。除了頂尖人類水平的哲學範例和相關能力外，我們還希望利用「生成與評估之間的差距」，並嘗試達到一個點，即我們至少能利用頂尖人類水平的能力來評估哲學推理，即使人類本身無法產生該推理。
可擴展監督（Scalable oversight）。然而，下一步是超越頂尖人類水平的哲學評估能力，並開始透過各種可擴展監督技術創造真正的超人類評估信號（參見我對這些技術的討論）。
泛化的行為科學。利用任何可用的評估信號（無論僅是頂尖人類水平還是超人類水平），我們都應該研究 AI 進行哲學推理時涉及的泛化動態。例如，如果我們對 AI 如何嘗試達成其倫理和哲學框架的「反思平衡」感興趣，我們應該給予它們參與相關形式反思的機會——或許也包括參與相關形式的自我修改，前提是這發生在安全受控的背景下——並看看我們能學到什麼。事實上，在整個系列中（例如和），我一直試圖強調在泛化行為科學背景下有多少實驗價值可挖掘，我認為這些考量在此同樣適用。
透明度。各種可以幫助我們進行我之前稱之為「」的工作——即提高我們評估 AI 是否以我們信任的方式進行哲學推理的能力，即使不看或不專注於輸出本身。透明度工具還可以更廣泛地幫助我們嘗試理解 AI 內部發生了什麼，包括它們可能表現出的基準「類人性」程度。
在上述所有方面尋求 AI 的幫助。最後，正如我在整個系列中所強調的，我們應該嘗試在上述所有方面尋求 AI 的幫助。特別是，在關於的文章中，我提出：成功自動化更多經驗形式的對齊研究，可以帶動學習如何更好評估概念研究的進展，這既可以透過更多（例如更好的可擴展監督技術），也可以透過更多（例如改進的泛化行為科學和改進的透明度形式）來實現——而且自動化經驗研究可以極大地幫助我們檢測和消除圖謀（scheming）。我認為大部分討論也適用於從 AI 中適當誘導類人哲學的努力。

總體而言，雖然建立能夠進行類人哲學的 AI 可能被證明是一項特別微妙且難以評估的挑戰，即使相對於其他形式的難以評估的推理也是如此，但我認為我們有多種攻擊角度可用，並且我們現在正處於能夠取得實質進展的地位。我希望這篇文章能幫助激發這方面的努力。

^() 這種哲學在某種絕對意義上可能也是好/真/正確的，但我在此想保持開放態度，即關於「正確的方式」來進行哲學思考可能沒有客觀答案——或者至少對某些類型的哲學來說是如此。在這種情況下：如果我們希望 AI 達成我們認可的那種結論，我們就需要它們以我們所採用的特定、偶然的方式來進行哲學思考。倫理學是「可能沒有客觀正確的哲學方式」最清晰的例子（參見元倫理學立場如「主觀主義」、「反現實主義」等）。但我實際上預期，主觀主義/反現實主義關於倫理學的許多教訓可以推廣到其他類型的哲學反思。例如，我認為關於我們的各種概念是否會隨著科學本體論的轉移而繼續適用，可能沒有「真正的答案」。相反，我認為這可能部分取決於我們繼續應用這些概念或捨棄它們的偶然傾向。我下文會對此進行更多討論。

^() 例如，超智慧將會知道什麼是類人哲學：事實上，它們會比我們了解得透徹得多。而且根據定義，它們會在這方面比我們強大得多。

^() 例如，哲學可以被理解為一種廣義的「理解世界」的嘗試；將人類科學和論述的不同方面縫合成一個更連貫的整體；解決特定類型的智力謎題；對特別基礎和普遍的話題進行清晰嚴謹的思考；以及提出新的本體論，使世界整體變得更清晰，等等。

^() 即使在更熟悉的案例範圍內，也可能出現不一致問題。

^() 我在上一篇文章的進一步討論了這個問題。

^() 當然，哲學——無論是否類人——也可能導致一個同時具有類人動機和異類動機的 AI 參與顯然危險且非預期的行為。例如，也許一個 AI 最初致力於「誠實」，但當它進行更多反思時，它決定這個價值觀是被誤導的或被其他價值抵消了，並因此開始欺騙人類。

^() 儘管這並非我在上一篇文章中主要想反對的那類問題，那篇文章更多是關於異類性作為建立未來「宇宙獨裁者」的一個問題。

^() 似乎合理的是，很多哲學是更廣泛的良好、清晰概念推理的延伸，再加上更形式化的邏輯約束、對經驗一致性的關注，或許還引入了在其他具有更客觀正確答案的領域中奏效的其他啟發式方法——例如強調簡約性的啟發式方法。

^() 感謝 Ben Levinstein 和 Collin Burns 對此點的討論。

Building AIs That Do Human-Like Philosophy