The authors introduce WoFBench, a benchmark comparing AI models to superfans of the Wings of Fire series, but immediately deprecate it as frontier models already achieve near-perfect scores. This highlights the growing challenge of benchmark saturation where new evaluations become obsolete upon release due to rapid AI advancement.
WoFBench 的推出與廢棄:一項關於翼龍預言知識的 AI 基準測試分析
Lesswrong
大約 4 小時前
AI 生成摘要
我們推出了 WoFBench,這是一項將《翼龍預言》超級粉絲的知識與前沿 AI 模型進行比較的測試,但隨即正式廢棄它,因為 AI 模型的表現已達到飽和且與完全正確無異。這反映了基準測試開發者面臨的共同困境:投入大量精力開發的測試在發布時便已過時,難以區分模型能力的差異。
我們在此介紹並正式宣佈棄用 WoFBench,這是一項將《火翼飛龍》(Wings of Fire)超級粉絲的知識與前沿 AI 模型進行對比的新穎測試。該基準測試最初展現出作為一項具挑戰性評估的潛力,但遺憾的是,在創建之初就已被證明處於飽和狀態,因為 AI 模型產出的結果,在我們評分能力的極限範圍內,與完全正確的答案在統計上已無差別。
問題的確定被證明是困難的,因為基準測試作者對《火翼飛龍》設定的了解極其有限,主要源於資訊轟炸和旁聽到的爭論。我們最初嘗試從超級粉絲那裡獲取問題,讓每個人對另一個人的問題進行評判。然而,由於他們沒有報酬且存在競爭關係,僅同意在能與整個超級粉絲小組進行答案對比的程度下參與。因此,問題是透過詢問 Claude Opus 4.6 獲取的:
我們的結論是,雖然某些 AI 系統(尤其是 ELIZA)表現不佳,但所有前沿模型的得分都非常接近 100%。許多丟失的分數可以說是主觀判斷的問題,或者是模型試圖以最大善意去解讀陷阱題/錯誤資訊題的情況。超級粉絲 1 的表現明顯低於前沿模型,但高於 ELIZA 的基準線。超級粉絲 2 的表現具有競爭力,但我們注意到她沒有接受超級粉絲 1 丟分最多的那些問題的評估,這使得直接對比變得困難。
雖然這項基準測試旨在對超級粉絲和 AI 都具備挑戰性,但它區分模型的能力已經非常有限。雖然透過增加多樣本評估可能會擠出更多的靈敏度,但這對於當代模型來說不太可能有意義,更不用說未來的模型了。這反映了基準測試開發者可能發現自己陷入的一個日益普遍的困境:在投入大量時間、精力和金錢創建基準測試後,它在發佈時就已經過時了。作者指出,基準測試飽和與工作取代、穩定的威權主義以及人類滅絕一樣,都被列入對 AI 進步速度感到擔憂的理由清單中。