WoFBench 的推出與廢棄：一項關於翼龍預言知識的 AI 基準測試分析

Lesswrong

大約 4 小時前

AI 生成摘要

我們推出了 WoFBench，這是一項將《翼龍預言》超級粉絲的知識與前沿 AI 模型進行比較的測試，但隨即正式廢棄它，因為 AI 模型的表現已達到飽和且與完全正確無異。這反映了基準測試開發者面臨的共同困境：投入大量精力開發的測試在發布時便已過時，難以區分模型能力的差異。

我們在此介紹並正式宣佈棄用 WoFBench，這是一項將《火翼飛龍》（Wings of Fire）超級粉絲的知識與前沿 AI 模型進行對比的新穎測試。該基準測試最初展現出作為一項具挑戰性評估的潛力，但遺憾的是，在創建之初就已被證明處於飽和狀態，因為 AI 模型產出的結果，在我們評分能力的極限範圍內，與完全正確的答案在統計上已無差別。

基準測試是追蹤模型能力快速進步的重要工具，但它們正難以跟上大型語言模型（LLM）的進展：前沿模型許多熱門基準測試中獲得高分，這引發了人們對其是否仍具備區分模型能力之作用的質疑。

作為回應，我們推出了 WoFBench，這是一套旨在測試對圖伊·蘇瑟蘭（Tui T. Sutherland）《火翼飛龍》宇宙領域的記憶檢索與知識綜合能力的評估套件。

超級粉絲是透過嚴謹的搜尋過程確定的，在該過程中，主要作者家庭的所有成員都被要求完成一份關於《火翼飛龍》宇宙知識的自我評估。評估僅包含一個問題，文字為：「你認為你比 Gemini 更了解《火翼飛龍》宇宙嗎？」最終確定了兩位超級粉絲，為了降低競爭對手基準測試團隊挖角的風險，我們對其。

問題的確定被證明是困難的，因為基準測試作者對《火翼飛龍》設定的了解極其有限，主要源於資訊轟炸和旁聽到的爭論。我們最初嘗試從超級粉絲那裡獲取問題，讓每個人對另一個人的問題進行評判。然而，由於他們沒有報酬且存在競爭關係，僅同意在能與整個超級粉絲小組進行答案對比的程度下參與。因此，問題是透過詢問 Claude Opus 4.6 獲取的：

你能給我三個關於《火翼飛龍》系列的問題嗎？目標是盡可能讓它們變難。我打算把這些問題拿去問我 11 歲的孩子、10 歲的孩子以及 Gemini，我希望他們都會感到困難。我的兩個孩子已經同意參與，雖然還沒徵詢 Gemini 的意見，但我預計它不會反對。

最終的基準測試由 17 個問題組成，主要受限於主要作者繼續進行下去的意願。年長的超級粉絲顯得不知疲倦，[1] 如果這項基準測試在其他方面看起來有前景，我們有信心可以構建一個極大規模的基準測試。請注意，年幼的超級粉絲在評估完成前需要去參加生日派對，因此並未對所有問題進行評估。答案以書面形式收集，以避免在超級粉絲小組內部發生洩漏。拼寫錯誤不扣分。

每個答案都經過驗證，方式是允許超級粉絲進行討論、向 Gemini 詢問後續問題，以及在特別有爭議的情況下直接查閱原始資料。請注意，這種驗證程序無法區分「所有超級粉絲和模型都正確」與「他們都給出了相同的錯誤答案」這兩種情況。

我們即時評估了 Gemini 3.1 Pro，隨後評估了 Claude Opus 3.2 Pro、ChatGPT 5.2 Pro 和 ELIZA。在問題包含多個組成部分的情況下，按組成部分的比例給予部分分數。

| 受試者 | WoFBench 得分 |
| :--- | :--- |
| 超級粉絲 1 (11 歲) | 14.7/17 |
| 超級粉絲 2 (10 歲) | 5.9/6 |
| Gemini | 17.0/17 |
| Claude | 16.8/17 |
| ChatGPT | 16.3/17 |
| ELIZA | 0/17 |

我們的結論是，雖然某些 AI 系統（尤其是 ELIZA）表現不佳，但所有前沿模型的得分都非常接近 100%。許多丟失的分數可以說是主觀判斷的問題，或者是模型試圖以最大善意去解讀陷阱題/錯誤資訊題的情況。超級粉絲 1 的表現明顯低於前沿模型，但高於 ELIZA 的基準線。超級粉絲 2 的表現具有競爭力，但我們注意到她沒有接受超級粉絲 1 丟分最多的那些問題的評估，這使得直接對比變得困難。

雖然這項基準測試旨在對超級粉絲和 AI 都具備挑戰性，但它區分模型的能力已經非常有限。雖然透過增加多樣本評估可能會擠出更多的靈敏度，但這對於當代模型來說不太可能有意義，更不用說未來的模型了。這反映了基準測試開發者可能發現自己陷入的一個日益普遍的困境：在投入大量時間、精力和金錢創建基準測試後，它在發佈時就已經過時了。作者指出，基準測試飽和與工作取代、穩定的威權主義以及人類滅絕一樣，都被列入對 AI 進步速度感到擔憂的理由清單中。

[1] 超級粉絲 1 在發佈前獲准閱讀本報告的草稿。他們唯一的反饋是我應該問他們更多、更難的問題。截至發佈時，超級粉絲 1 正以逐漸增加的音量重複著：「再問我更多《火翼飛龍》的問題！」

透過以下方式評論：, , *

Introducing and Deprecating WoFBench