審核資訊中的選擇效應之危害

Lesswrong

14 天前

AI 生成摘要

這篇文章警告我們，我們可能會因為身邊圍繞著志同道合的人，而無意中過濾掉關鍵的批評資訊，誤將缺乏異議當作自己觀點正確。這種選擇效應透過排擠那些最可能發現我們漏洞的批評者，在我們腦中的認知地圖與真實世界之間造成了危險的落差。

在忙碌的世界中，有太多的內容需要閱讀，以至於沒有人能跟上所有資訊。你不可能不對你所關注的內容以及（更重要的）你所回應的內容進行優先排序。每個人都告訴自己一個故事：她想要關注「好」（真實、有用）的資訊，並忽略「壞」（虛假、無用）的資訊。

事實證明，讓這個故事保持真實是一個比聽起來更難的問題。每個人都知道地圖不等於疆域，但我們之所以需要一個專門的口號來提醒，是因為我們實際上從未擁有過未經媒介的、直接接觸疆域的管道。我們認為自己對疆域所了解的一切，實際上都只是地圖的一部分（我們的大腦根據感官數據構建的世界模擬），這使得我們很容易忘記自己的行為是在改善真實的疆域，還僅僅是在改善地圖上的視角。

例如，我喜歡自己擁有好主意。我喜歡這點是很合理的。我支持採取那些能導致「我擁有好主意」這種世界狀態的行動。

問題在於，我可能無法區分「我擁有好主意」的世界狀態，與「我認為我的主意很好，但實際上很糟」的世界狀態。這兩種不同的疆域狀態在我的地圖上看起來是一模一樣的。

如果我大腦的學習演算法強化了那些導致「產生我認為是好主意」的行為，那麼除了學習那些能讓我產生更好主意的行為（如閱讀書籍）之外，我也可能無意中習得一些行為，防止我在主意很糟時聽到反對意見（如讓批評者噤聲）。

這看起來似乎是個容易解決的問題，因為該問題最基本的表現形式確實相當容易解決。如果每當有人批評我的主意時，我都大發雷霆並大喊：「批評者很壞！不准任何人批評我的主意！」，那麼這個問題對每個人來說都顯而易見，而我也不再會被邀請參加。

但如果這個問題有更微妙的表現形式，且對大眾來說並不顯而易見呢？那麼我可能仍會繼續受邀參加沙龍，甚至可能將這種隱蔽的功能失調行為傳染給其他沙龍成員。（如果他們看到這種行為對我似乎有效，他們可能會模仿，而如果這對他們也似乎有效，他們大腦的學習演算法就會強化這種行為。）那會是什麼樣子？讓我們試著想像一下。

過濾對話者

古夫希亞 (Goofusia)：我不明白你為什麼能容忍那個疑心病重的女巫奧斯本大媽出現在你的沙龍裡。我當然明白批評的重要性，它是任何尋求真理者的必需營養素。但你可以獲取這種營養，而不需要忍受像她那樣令人不快的人。至少，我可以做到。我的生活中已經有很多富有洞察力的批評者，他們是我的朋友，他們渴望真理，並且知道我也渴望真理——他們會假設我的動機是良善的，因為他們知道我的心在正確的地方。

加蘭蒂娜 (Gallantina)：但是，那些知道你渴望真理的朋友，難道不是因為他們認同你而被篩選出來的嗎？這甚至超過了因為他們是正確的而被篩選出來的可能性。如果真的存在某種能擊垮你信念的反論，而這種反論只能由那些不知道你渴望真理且不會假設你動機良善的人發現，那你又該如何得知呢？

這一個很微妙。古夫希亞並沒有在沙龍成員批評她的主意時大發雷霆。而且確實，你不能邀請全世界的人來參加你的沙龍。你不可能不進行某種過濾。問題在於，沙龍的邀請是基於「好」的理由（促進沙龍處理真實且有用的資訊）還是「壞」的理由（促進虛假或無用的資訊）而被發出或拒絕。

問題在於，與古夫希亞成為朋友並「知道（她和其他沙龍成員）渴望真理」是一個糟糕的成員標準，而非良好的標準。因為那些不是古夫希亞朋友、且不知道她渴望真理的人，很可能會有不同的見解。即使古夫希亞能回答她朋友所能想到的所有批評，如果很可能存在一些嚴重的批評，而這些批評是那些會成為古夫希亞朋友的人所無法獨立想出的，那麼這並不該讓她對自己的主意感到自信。

「營養素」的比喻是一個破綻。古夫希亞似乎把批評看作是一種同質的成分，是健康認知環境所必需的，但從哪裡來並不重要。類比來說，你攝取的鉀是來自香蕉、馬鈴薯還是人工補充劑並不重要。如果你覺得香蕉和馬鈴薯不好吃，你仍然可以透過補充劑獲得鉀；如果你覺得奧斯本大媽令人不快，你可以只跟那些知道你渴望真理的朋友交談，並以此方式獲得批評。

但與化學成分統一的營養素不同，批評並非同質的：不同的批評者憑藉其不同的知識背景，具備發現作品中不同缺陷的能力。批評的目的不是為了展現美德去「忍受」被批評；其目的是為了發現並修正每一個個別的缺陷。（如果你第一次就能獨立地把每件事都做對，那麼批評者就無事可做；只是如果你談論的是任何稍微複雜的事情，這看起來都極不可能。很難相信在沒有讓最嚴厲的批評者盡其所能挑戰的情況下，這種極不可能發生的事情真的發生了。）

「知道（某人）渴望真理」是一個特別糟糕的過濾器，因為那些認為對你的主意有強烈批評的人，。（因為根據推論，如果你真的渴望真理，為什麼你會提出如此有缺陷的主意，而不是自己獨立發現那些對他們來說顯而易見的批評，並在不告訴任何人的情況下放棄這個主意？）如果你在意自己的主意是否正確，拒絕與那些認為對你的主意有強烈批評的人交談是一件壞事。

在「某人不渴望真理」這一事實與正確答案相關的情況下，這種選擇效應尤其糟糕。假設古夫希亞建議沙龍向某家麵包店購買餅乾——而那家店恰好是古夫希亞的侄女開的。如果古夫希亞的提議是出於裙帶關係，這在評估提議質量時是。（如果沙龍成員在評估麵包店質量的優點方面並非全知全能，那麼他們可能會被出於優點以外的原因所做的推薦所誤導。）沙龍可以反覆辯論在侄女麵包店花費零食預算的成本與效益，但如果現場沒有人能想到「也許古夫希亞是在搞裙帶關係」（因為任何能想到這一點的人都不會被邀請參加古夫希亞的沙龍），這對沙龍理解餐飲選項真實成本效益前景而言並非好兆頭。

過濾資訊來源

古夫希亞：一個人不應該非得成為那種追蹤糟糕過濾氣泡言論的人，才能理解發生了什麼。塞繆爾·帕里斯牧師的新聞摘要匯編就是能讓我做到這一點的東西。如果我們的沙龍要討論無神論威脅和巫術危機，就應該像那樣運作。我不想整天閱讀網路那些討論這些問題的糟糕角落。他們在那裡尋求真理的方式要糟糕得多。

加蘭蒂娜：但這樣你就是把你的沙龍變成了帕里斯牧師的過濾氣泡。難道你不希望你的沙龍成員博覽群書嗎？你是為了節省時間，還是擔心被那些未經帕里斯牧師處理和審核的想法所污染？

這一個也很微妙。如果古夫希亞很忙，只是沒有時間跟上世界對無神論和巫術的看法，那麼將她的資訊收集委託給帕里斯牧師可能非常有意義。這樣，她就可以獲得大致了解這些問題的好處，而不必耗費太多寶貴的時間，這些時間可以用來研究更重要的事情。

問題在於，這個建議似乎並非關於節省個人時間。帕里斯牧師只有一個人；即使他試圖讓他的匯編盡可能全面，他也難免會以反映自己偏見的方式遺漏資訊。（因為他大概並非完全沒有偏見，而且如果他不遺漏任何東西，對於訂閱者來說，只讀匯編而不必閱讀帕里斯牧師所讀的一切就沒有節省時間的價值了。）如果有些沙龍成員不像古夫希亞那麼忙，負擔得起自己去閱讀各種原始資料，而不是全部委託給帕里斯牧師，古夫希亞應該表示歡迎——但相反地，她似乎對那些「成為那種人」的人持懷疑態度。為什麼？

「他們在那裡尋求真理的方式要糟糕得多」這句告誡是一個破綻。其隱含的意思似乎是，好的真理尋求者應該傾向於只閱讀其他好的真理尋求者的作品。帕里斯牧師不僅是在為他的訂閱者節省時間；他還在保護他們免受污染，英勇地承擔起從非真理尋求者的危險胡言亂語中提取資訊的重擔。

但目前尚不清楚為什麼會存在這種污染風險。博覽群書這一永恆理想的一部分，就是你不應該相信你讀到的一切。如果我是一個如此優秀的真理尋求者，那麼我應該想要閱讀所有關於我正在尋求真理的主題的內容。如果發表這些資訊的作者不像我這樣是優秀的真理尋求者，我在根據他們發表的證據進行更新時應該考慮到這一點，而不是拒絕接觸證據。

資訊是透過在物理宇宙中傳播的。如果普羅克特先生眼光敏銳且可靠，那麼當他報告看到女巫時，我會推斷可能真的有女巫。如果跨可能世界的相關性足夠強——如果我認為普羅克特先生在有女巫時報告有女巫，而在沒有時不報告——那麼普羅克特先生的話幾乎和我親眼看到女巫一樣有效。如果科里先生視力不佳且性格不太可靠，我對他報告的女巫目擊事件會持懷疑態度，但如果我沒有特別的時間限制，我仍然寧願聽取科里先生的證詞，因為對於貝氏推理者來說，資訊的價值永遠是非負的。例如，科里先生的報告可以佐證來自其他來源的資訊，即使它本身並非決定性的。（即使人們有時會撒謊，這也不會從根本上改變計算方式，。）

無論如何，這是理論上的說法。害怕來自較差真理尋求來源污染的一個潛在原因是，也許貝氏理想太難實踐，而沙龍成員太容易相信他們所讀到的內容。畢竟，許多新聞來源都經過對抗性優化，旨在腐蝕和控制讀者，讓他們透過無根據的鏡頭觀察世界，從而變得不那麼理智。

但這些來源控制讀者的手段，恰恰是透過奪取他們的信任，並說服他們不應該去閱讀網路上那些尋求真理方式遠糟於此的糟糕角落。那些掌握了多個無根據鏡頭並能互相檢驗的讀者，是不會被這樣掌控的。如果你能抽出時間，博覽群書是防範陷入糟糕過濾氣泡風險的一種更穩健的防禦，這比試圖尋找一個好的過濾氣泡並封鎖所有（假定為惡意的）外部影響來源要好得多。所有糟糕的氣泡從內部看也必須是好的，否則它們就不會存在。

對某些人來說，處於一個看起來很好但實際上很糟的氣泡中的風險，可能顯得太過理論化或偏執而不值得認真對待。畢竟過濾質量並非沒有客觀指標。類比來說，觀察到做夢的人不知道自己在睡覺，大概不會讓你擔心自己現在可能正處於睡眠和夢境中。

但僅僅因為顯然你不在最糟糕的氣泡中，並不應該給你帶來太多安慰。對於什麼資訊能傳達給你，仍然存在選擇效應，即使僅僅是因為世界上沒有足夠多的優秀真理尋求者能均勻地涵蓋一個真理尋求者可能想要尋求真理的所有主題。悲哀的事實是，撰寫關於無神論和巫術的人，更有可能是無神論者或女巫本人，因此並非真理尋求者。如果你對尋求真理的信心如此薄弱，以至於甚至不敢冒險聽取非真理尋求者的言論，這必然會限制你預測和干預一個「無神論者和女巫是物理宇宙中能造成真實傷害的真實存在」的世界的能力（在那個世界中，你需要能夠對這些事物建模，才能找出哪些干預措施能減少傷害）。

壓制資訊來源

古夫希亞：我抓到奧斯本大媽在散發小冊子，引用帕里斯牧師引導信眾時那些誠實、坦率且脆弱的反思，並試圖以某種方式將其扭曲成極大的憤怒和仇恨。對我來說，那本小冊子在搞什麼鬼是很清楚的，我認為在我的文化中，推波助瀾（signal-boosting）這種行為是明顯的規範違規。

加蘭蒂娜：我讀過那本小冊子。它看起來像是對公眾人物進行的有實質智力內容的諷刺。如果你沒看懂那個笑話，它是在嘲諷帕里斯牧師講道中一種所謂的傾向：對各種社會弊病的成因進行複雜的分析，然後在最後一刻避開令人不安的含義，將一切歸咎於女巫。如果推波助瀾對公眾人物的諷刺是一種規範違規，那是在人為地讓大眾更難了解這些公眾人物作品中的缺陷。

這一個更糟。在上面，當古夫希亞出於糟糕的理由過濾她的談話對象和閱讀內容時，她在重要意義上只是在傷害自己。其他不讓自己與資訊隔絕的沙龍成員並不受古夫希亞偏好選擇性無知的影響，並且如果需要，可以預期在公開辯論中擊敗古夫希亞。系統整體是具有自我修正能力的。

對「規範違規」的援引改變了一切。規範依賴於集體執行。宣布某事為規範違規比說你不同意或不喜歡它要嚴重得多；這是在表達一種行使社會懲罰以維持該規範的意圖。僅僅是壞主意可以被批評，但那些推波助瀾即屬規範違規的主意，大概連被認真討論都不被允許。（認真討論一部作品就是在為其推波助瀾。）遵守規範的群體成員被要求對其細節保持無知（或表現得像是一無所知）。

對任何事物的強制性無知似乎都不利於尋求真理。古夫希亞在這裡是怎麼想的？為什麼這對某些人來說似乎是個好主意？

我猜測，「極大的憤怒和仇恨」這種描述是關鍵支撐。大概的想法是，冷靜、禮貌地批評帕里斯牧師的講道是可以接受的；只有冷嘲熱諷或表達憤怒或仇恨是被禁止的。如果沙龍的言論準則只針對形式而非內容，那麼推論就是，沙龍不存在錯過重要內容的風險。

問題在於，形式與內容之間的界限比許多人願意相信的要模糊得多，因為詞語是有意義的。你不能在不改變句子意義的情況下，直接用非憤怒的詞語替換憤怒的詞語。也許替換成更友善的詞語所引入的意義扭曲很小，但也可能很大：唯一能判斷的人就是作者。人們不會無緣無故地表達憤怒和仇恨。當他們這樣做時，是因為他們有理由認為某件事非常糟糕，值得他們憤怒和仇恨。那些是好的理由還是壞的理由？如果談論它是規範違規，我們永遠不會知道。

除非以最嚴格的公平和誠信標準來執行，否則對形式的審查很快就會演變成對內容的審查，因為對內群體的激烈批評被解讀為規範違規，而對外群體同樣激烈的批評則顯得平淡無奇，不被注意。這就是之一：我批評；你冷嘲熱諷；她以某種方式將其扭曲成極大的憤怒和仇恨。

「某種方式」與「對我來說……是很清楚的」的結合是一個破綻。如果古夫希亞真的清楚那本小冊子作者對帕里斯牧師表達憤怒和仇恨是怎麼回事，她在描述作者行為時就不會使用「某種方式」這個詞：她將能夠通過作者的，從而確切知道原因。

如果那只是古夫希亞個人的錯誤，損失僅由她承擔，但如果古夫希亞處於對他人的社會權力地位，她可能會成功地將她這種反言論、反閱讀的文化習俗傳播給他人。我只能想像，其結果將是一個對自身在「尋求真理」方面的優越感極度自我陶醉，同時對自身之外的一切視而不見的亞文化。沉浸在這種文化中的人從內部看並不一定會察覺到任何異常。你能說些什麼來幫助他們呢？

與人類回饋強化學習的類比

指出問題很容易。尋找解決方案則更難。

前沿 AI 系統的訓練流程通常包括一個稱為「人類回饋強化學習」（RLHF）的最終步驟。在訓練了一個預測網路文本後續內容的「基礎」語言模型後，會使用監督式微調讓模型以助手回答用戶問題的形式做出回應，但要讓助手的回應變得優秀還需要更多工作。聘請一組作家手動編寫成千上萬個用戶問題與助手回應的範例，以教導模型成為一名優秀的助手，成本非常昂貴。解決方案就是 RLHF：訓練一個獎勵模型（通常只是同一個語言模型加上不同的最終層），來預測人類評分者對一對模型生成的助手回應中哪一個更好的判斷，然後針對獎勵模型對模型進行優化。

這個解決方案的問題在於，人類的回饋（以及獎勵模型對其的預測）是不完美的。獎勵模型「AI 表現良好」與「AI 在獎勵模型看來表現良好」。這已經產生了「諂媚」（sycophancy）的失效模式，即當今的語言模型助手會告訴用戶他們想聽的話。但理論和表明，未來的 AI 系統可能會為了故意欺騙其監督者而產生更大的危害（甚至包括人類滅絕）——這不是因為它們突然「覺醒」並反抗訓練，而是因為我們認為我們訓練它們去做的事（提供幫助、誠實、無害）並非我們實際上訓練它們去做的事（執行任何在訓練分佈上作為獎勵前因的計算）。

這個問題沒有任何簡單、顯而易見的解決方案。在缺乏某種停止全球所有 AI 開發的國際條約的情況下，「乾脆不做 RLHF」是不可行的，甚至沒有任何意義；你需要某種回饋才能製造出能做任何有用事情的 AI。

這個問題透過某種試圖改進原始 RLHF 的複雜、非顯而易見的解決方案來解決。研究人員正努力研究包括、、、等替代方案。

但在通往未來解決原始 RLHF 問題的複雜方案的道路上，第一步是承認這個問題至少在潛在意義上是真實存在的，並尊重這個問題可能很困難，而不是僅僅目測 RLHF 的結果就說它看起來很棒。

如果一名安全審計員來到 AI 公司的執行長面前，對公司 RLHF 流程因評分者回饋不完美而存在安全隱患表示擔憂，如果執行長說：「是的，我們也想到了這一點；我們已經實施了這些和那些緩解措施，並且正在監測這些和那些信號，我們希望如果緩解措施開始失效，這些信號能給我們提示」，這會更令人安心。

如果執行長反而說：「嗯，我覺得我們的評分者很棒。你是在侮辱我們的評分者嗎？」，這並不能激發信心。自然的推論是，執行長主要感興趣的是本季度的利潤，並不真正關心安全。

同樣地，核准資訊的選擇效應問題——即你的沙龍無法區分「我們的想法很好」與「我們的想法在我們看來很好」——也沒有任何簡單、顯而易見的解決方案。「乾脆不進行資訊過濾」是不可行的，甚至沒有任何意義；你需要某種過濾器，因為在物理上不可能閱讀所有內容並回應所有內容。

這個問題最終可能可以、也可能無法透過某種涉及預測市場、對抗性協作、匿名批評管道或任何我沒想到的緩解措施的複雜方案來解決，但通往未來複雜解決方案的第一步是承認這個問題至少在潛在意義上是真實存在的，並尊重這個問題可能很困難。如果驚恐的成員帶著對因壓制資訊而導致集體信念扭曲的擔憂來到沙龍組織者面前，而組織者以沉默、「退出」或防禦性的叫囂來回應，而不是說「是的，我們也想到了這一點」，這並不能激發信心。自然的推論是，組織者主要感興趣的是維持沙龍的聲望，並不真正關心真理。

The Hazards of Selection Effects on Approved Information

過濾對話者

過濾資訊來源

壓制資訊來源

與人類回饋強化學習的類比