UtopiaBench: A Benchmark for Good, Specific, and Plausible Future Scenarios
Lesswrong
I am proposing UtopiaBench, a benchmark for future scenarios that are good, specific, and plausible, to address the lack of shared positive visions in the AI safety community. I have created a proof-of-concept website where submissions are evaluated via Elo scores and invite feedback and contributions to improve this frontier.
UtopiaBench:一個關於美好、具體且可信的未來情境的基準測試
Lesswrong
20 天前
AI 生成摘要
我提議建立 UtopiaBench,這是一個針對美好、具體且具合理性的未來情境所設計的基準測試,旨在解決 AI 安全社群缺乏共同正面願景的問題。我已經建立了一個概念驗證網站,透過 Elo 分數來評估投稿內容,並歡迎大家提供回饋與貢獻以完善這個領域。
我請 Claude 建立了一個此類基準測試的初步概念驗證(PoC),透過 Elo 等級分來評估這三個維度:。新的投稿會由 Opus 4.5 自動評分。我認為目前的 AI 投票和投稿列表都還不夠理想——例如《Machines of Loving Grace》在我看來並非一個偉大的烏托邦願景,但目前排名第一。歡迎提供回饋、投票、投稿或。