UtopiaBench：一個關於美好、具體且可信的未來情境的基準測試

Lesswrong

20 天前

AI 生成摘要

我提議建立 UtopiaBench，這是一個針對美好、具體且具合理性的未來情境所設計的基準測試，旨在解決 AI 安全社群缺乏共同正面願景的問題。我已經建立了一個概念驗證網站，透過 Elo 分數來評估投稿內容，並歡迎大家提供回饋與貢獻以完善這個領域。

＊以個人名義撰寫＊

我提議建立 UtopiaBench：一個針對描述「美好、具體且具備可行性」未來情境之貼文的基準測試。

AI 安全社群長期以來一直使用短篇情境（vignettes）來分析並對紅隊演練（red-team）威脅模型。這很有價值，因為了解事情可能出錯的方式，有助於協調各方努力，以防止最大且最緊急的風險。

然而，對未來的願景可能具有「自我實現」的特性。想像一個與我們相似的世界，但大眾並不普遍相信變革性 AI 即將到來：那麼 AI 公司將無法籌集到現有的資金，因此變革性 AI 在該時空背景下，開發速度極可能遠慢於我們現實的時間線。

目前，AI 安全社群以及更廣泛的世界都缺乏對「美好未來」的共同願景，我認為改善這一點是有益的。

這類願景有三個理想條件：描述的世界必須是美好的、具體的，且具備可行性。要同時滿足所有屬性非常困難，因此我們的目標應該是在這三個維度上，提升「烏托邦願景」的帕累托前沿（Pareto frontier）。

我請 Claude 建立了一個此類基準測試的初步概念驗證（PoC），透過 Elo 等級分來評估這三個維度：。新的投稿會由 Opus 4.5 自動評分。我認為目前的 AI 投票和投稿列表都還不夠理想——例如《Machines of Loving Grace》在我看來並非一個偉大的烏托邦願景，但目前排名第一。歡迎提供回饋、投票、投稿或。

UtopiaBench: A Benchmark for Good, Specific, and Plausible Future Scenarios