newsence
來源篩選

Introducing and Deprecating WoFBench

Lesswrong

The authors introduce WoFBench, a benchmark comparing AI models to superfans of the Wings of Fire series, but immediately deprecate it as frontier models already achieve near-perfect scores. This highlights the growing challenge of benchmark saturation where new evaluations become obsolete upon release due to rapid AI advancement.

newsence

WoFBench 的推出與廢棄:一項關於翼龍預言知識的 AI 基準測試分析

Lesswrong
大約 4 小時前

AI 生成摘要

我們推出了 WoFBench,這是一項將《翼龍預言》超級粉絲的知識與前沿 AI 模型進行比較的測試,但隨即正式廢棄它,因為 AI 模型的表現已達到飽和且與完全正確無異。這反映了基準測試開發者面臨的共同困境:投入大量精力開發的測試在發布時便已過時,難以區分模型能力的差異。

我們在此介紹並正式宣佈棄用 WoFBench,這是一項將《火翼飛龍》(Wings of Fire)超級粉絲的知識與前沿 AI 模型進行對比的新穎測試。該基準測試最初展現出作為一項具挑戰性評估的潛力,但遺憾的是,在創建之初就已被證明處於飽和狀態,因為 AI 模型產出的結果,在我們評分能力的極限範圍內,與完全正確的答案在統計上已無差別。

基準測試是追蹤模型能力快速進步的重要工具,但它們正難以跟上大型語言模型(LLM)的進展:前沿模型 許多熱門基準測試中獲得高分,這引發了人們對其是否仍具備區分模型能力之作用的質疑。

作為回應,我們推出了 WoFBench,這是一套旨在測試對圖伊·蘇瑟蘭(Tui T. Sutherland)《火翼飛龍》宇宙領域的記憶檢索與知識綜合能力的評估套件。

超級粉絲是透過嚴謹的搜尋過程確定的,在該過程中,主要作者家庭的所有成員都被要求完成一份關於《火翼飛龍》宇宙知識的自我評估。評估僅包含一個問題,文字為:「你認為你比 Gemini 更了解《火翼飛龍》宇宙嗎?」最終確定了兩位超級粉絲,為了降低競爭對手基準測試團隊挖角的風險,我們對其

問題的確定被證明是困難的,因為基準測試作者對《火翼飛龍》設定的了解極其有限,主要源於資訊轟炸和旁聽到的爭論。我們最初嘗試從超級粉絲那裡獲取問題,讓每個人對另一個人的問題進行評判。然而,由於他們沒有報酬且存在競爭關係,僅同意在能與整個超級粉絲小組進行答案對比的程度下參與。因此,問題是透過詢問 Claude Opus 4.6 獲取的:

你能給我三個關於《火翼飛龍》系列的問題嗎?目標是盡可能讓它們變難。我打算把這些問題拿去問我 11 歲的孩子、10 歲的孩子以及 Gemini,我希望他們都會感到困難。我的兩個孩子已經同意參與,雖然還沒徵詢 Gemini 的意見,但我預計它不會反對。

最終的基準測試由 17 個問題組成,主要受限於主要作者繼續進行下去的意願。年長的超級粉絲顯得不知疲倦,[1] 如果這項基準測試在其他方面看起來有前景,我們有信心可以構建一個極大規模的基準測試。請注意,年幼的超級粉絲在評估完成前需要去參加生日派對,因此並未對所有問題進行評估。答案以書面形式收集,以避免在超級粉絲小組內部發生洩漏。拼寫錯誤不扣分。

每個答案都經過驗證,方式是允許超級粉絲進行討論、向 Gemini 詢問後續問題,以及在特別有爭議的情況下直接查閱原始資料。請注意,這種驗證程序無法區分「所有超級粉絲和模型都正確」與「他們都給出了相同的錯誤答案」這兩種情況。

我們即時評估了 Gemini 3.1 Pro,隨後評估了 Claude Opus 3.2 Pro、ChatGPT 5.2 Pro 和 ELIZA。在問題包含多個組成部分的情況下,按組成部分的比例給予部分分數。

| 受試者 | WoFBench 得分 |
| :--- | :--- |
| 超級粉絲 1 (11 歲) | 14.7/17 |
| 超級粉絲 2 (10 歲) | 5.9/6 |
| Gemini | 17.0/17 |
| Claude | 16.8/17 |
| ChatGPT | 16.3/17 |
| ELIZA | 0/17 |

我們的結論是,雖然某些 AI 系統(尤其是 ELIZA)表現不佳,但所有前沿模型的得分都非常接近 100%。許多丟失的分數可以說是主觀判斷的問題,或者是模型試圖以最大善意去解讀陷阱題/錯誤資訊題的情況。超級粉絲 1 的表現明顯低於前沿模型,但高於 ELIZA 的基準線。超級粉絲 2 的表現具有競爭力,但我們注意到她沒有接受超級粉絲 1 丟分最多的那些問題的評估,這使得直接對比變得困難。

雖然這項基準測試旨在對超級粉絲和 AI 都具備挑戰性,但它區分模型的能力已經非常有限。雖然透過增加多樣本評估可能會擠出更多的靈敏度,但這對於當代模型來說不太可能有意義,更不用說未來的模型了。這反映了基準測試開發者可能發現自己陷入的一個日益普遍的困境:在投入大量時間、精力和金錢創建基準測試後,它在發佈時就已經過時了。作者指出,基準測試飽和與工作取代、穩定的威權主義以及人類滅絕一樣,都被列入對 AI 進步速度感到擔憂的理由清單中。

[1] 超級粉絲 1 在發佈前獲准閱讀本報告的草稿。他們唯一的反饋是我應該問他們更多、更難的問題。截至發佈時,超級粉絲 1 正以逐漸增加的音量重複著:「再問我更多《火翼飛龍》的問題!」

透過以下方式評論:, , *