騙子的預測毫無價值

Lesswrong

大約 4 小時前

AI 生成摘要

本文主張在評估實際提案或預測時，相關實體的信譽與過往的誠信至關重要；如果一個來源有撒謊的前科，其預測應該被完全忽略，甚至不能作為參考的起點。

LessWrong 社群非常令人欽佩的一點是，他們願意非常嚴肅地對待論點，而不論提出該論點的人是誰。在許多情況下，這是一種極佳的自律！

但如果你是作為一名管理者（或選民），你通常不僅需要考慮「論點」，還需要考慮由特定代理人提出的實際「提案」：

是否應該允許 X 執行專案 Y？
當我無法親自驗證 Z 時，我是否應該根據 X 對 Z 的主張來做決定？

一個關鍵的區別在於，這些不是抽象的論點。它們是涉及特定實體 X 的實際提案。在這種情況下，X 的公信力就變得至關重要：X 是否會誠實且有效地執行專案 Y？X 是否可能對 Z 做出準確的陳述？

在這些情況下，忽視 X 已知的誠實程度可能是一個錯誤。

我對此問題的思考受到了 Dan Davies 在 2004 年發表的一篇經典文章的影響：：

總之，我對當代政治所做的每一項分析，其秘訣或多或少都源於我昂貴的商學院教育（我本想寫一本書叫《我所知道的一切都是在極其昂貴的大學學到的》，但我懷疑它賣不動）。關於商學院及其畢業生的傳聞大約有一半是真的，他們確實常讓人覺得是在浪費時間和金錢，但他們偶爾也會教你一些確實非常有用的東西……

好的想法不需要為了獲得公眾認可而編造大量謊言。我第一次意識到這一點是在一堂會計課上……

騙子的預測毫無價值。我告訴你，我們經歷了一個又一個慘痛、糟糕、該死的案例，所有案例都有這樣一個教訓。不僅是想要推動專案的人往往會對該專案的可能結果做出不準確的預測，而且試圖對一套根本不誠實的預測進行「向下修正」也是徒勞的。如果你對預測者的誠信有疑慮，你根本不能使用他們的預測。甚至不能將其作為「起點」……

審計的至關重要性。這一點被反覆強調。Brealey 和 Myers 的書中有一章專門討論這個問題，提醒青澀的學生們，這就像備份電腦檔案一樣，是每個人似乎都必須透過慘痛教訓才能學會的一課。基本上，事實已經一次又一次地證明：如果不對已完成的專案進行審計，以查看原始預測的準確程度，那麼這家公司得到的預測和專案，往往就是他們咎由自取的。如果一家公司的文化是做出不誠實的預測不需要承擔後果，那麼他們得到的專案也是咎由自取。如果一家公司把空白支票交給有失敗和欺詐紀錄的管理團隊，他們也是咎由自取……

整篇文章都非常出色，儘管關於伊拉克的具體細節對於讀過 2001-2004 年新聞的人來說可能更有意義。

在 AI 安全領域的應用

我們已經到了一個不同的 AI 實驗室都累積了過往紀錄的階段。這使得調查他們的公信力成為可能。是否有任何實驗室是已知的「騙子」？他們是否有發表誤導性言論的紀錄，或者在承諾變得稍微不方便時就打破所謂具約束力承諾的紀錄？

同樣地，當審視本週與 AI 相關的政治事件（Anthropic 與國防部領導層之間的對抗）時，相關人員的既有紀錄為何？他們是否有誤導他人的歷史，還是通常表現誠實？

但這些原則並不侷限於本週。事實上，它們可能不侷限於「人類」。如果一個 AI 模型有欺騙的紀錄（），那麼我們就不應該假設它是對齊（aligned）的。遺憾的是，反向推論並不完全可靠——一個長期表現誠實的模型可能是在為做準備。但至少你可能還有個機會。

認識論衛生的第一步，是忽視那些有撒謊紀錄的實體所發出的聲音（或輸出的代幣），至少在涉及專案提案或事實主張時是如此。正如 Dan Davies 所言：

如果你對預測者的誠信有疑慮，你根本不能使用他們的預測。甚至不能將其作為「起點」。

Fibbers’ Forecasts are Worthless

在 AI 安全領域的應用