newsence
來源篩選

UtopiaBench: A Benchmark for Good, Specific, and Plausible Future Scenarios

Lesswrong

I am proposing UtopiaBench, a benchmark for future scenarios that are good, specific, and plausible, to address the lack of shared positive visions in the AI safety community. I have created a proof-of-concept website where submissions are evaluated via Elo scores and invite feedback and contributions to improve this frontier.

newsence

UtopiaBench:一個關於美好、具體且可信的未來情境的基準測試

Lesswrong
20 天前

AI 生成摘要

我提議建立 UtopiaBench,這是一個針對美好、具體且具合理性的未來情境所設計的基準測試,旨在解決 AI 安全社群缺乏共同正面願景的問題。我已經建立了一個概念驗證網站,透過 Elo 分數來評估投稿內容,並歡迎大家提供回饋與貢獻以完善這個領域。

*以個人名義撰寫*

我提議建立 UtopiaBench:一個針對描述「美好、具體且具備可行性」未來情境之貼文的基準測試。

AI 安全社群長期以來一直使用短篇情境(vignettes)來分析並對紅隊演練(red-team)威脅模型。這很有價值,因為了解事情可能出錯的方式,有助於協調各方努力,以防止最大且最緊急的風險。

然而,對未來的願景可能具有「自我實現」的特性。想像一個與我們相似的世界,但大眾並不普遍相信變革性 AI 即將到來:那麼 AI 公司將無法籌集到現有的資金,因此變革性 AI 在該時空背景下,開發速度極可能遠慢於我們現實的時間線。

目前,AI 安全社群以及更廣泛的世界都缺乏對「美好未來」的共同願景,我認為改善這一點是有益的。

這類願景有三個理想條件:描述的世界必須是美好的、具體的,且具備可行性。要同時滿足所有屬性非常困難,因此我們的目標應該是在這三個維度上,提升「烏托邦願景」的帕累托前沿(Pareto frontier)。

我請 Claude 建立了一個此類基準測試的初步概念驗證(PoC),透過 Elo 等級分來評估這三個維度:。新的投稿會由 Opus 4.5 自動評分。我認為目前的 AI 投票和投稿列表都還不夠理想——例如《Machines of Loving Grace》在我看來並非一個偉大的烏托邦願景,但目前排名第一。歡迎提供回饋、投票、投稿或