TLDR: InsanityBench 是一個由手工製作的加密謎題組成的基準測試,旨在衡量科學突破等領域所需的創意概念飛躍。目前頂尖(SOTA)模型的得分約為 10%。該基準測試仍處於極早期階段,需要適當擴大規模以減少變異量。
給你這張圖片並提示你「解決」它,只留下標題「及時之旅」(Timely Journey)。你會想到什麼?
(如果你真的想嘗試,請先停止閱讀,這是問題連結 )
多米諾骨牌顯然 是在暗示 2016 年 4 月,當時他們發表了另一個名為「漫長旅程」(Long. Journey)的謎題,其中包含了座標。同樣顯而易見的是,頂部的植物是百里香(Thyme),你必須將木石解釋為 Z,且有一堆骰子顯示為「1」(ones);自然地,Thyme + Z + ones = Time zones(時區)。當然。看到那些圖釘了嗎?是的,它們指向 Shift(位移/換檔鍵),因為你必須將一些字母向後推移。(以此類推,但我會為你的理智著想而就此打住)
如果還不明顯的話,我是在反諷。這一切都不顯而易見——但仍有一種奇異的美感。
什麼是 InsanityBench
InsanityBench 旨在成為一個封裝了我們深切關注的事物(科學中經常需要的「瘋狂」創意飛躍)的基準測試,它幾乎無法被投機取巧(因為每個任務都完全不同),且遠未達到飽和(表現最好的模型得分僅為 15%)。
瘋狂與創意
回顧人類歷史,尤其是科學史,有許多關鍵時刻,個人提出的想法如此具有爭議性,以至於乍看之下會被冠以「瘋狂」之名。「具生產力的瘋狂」似乎是指你能提出並投入那些乍看之下荒謬,但從正確角度觀察時卻是最簡單解釋的想法——它們不知為何能與每一條證據完美契合,突然間,「瘋狂」就變成了「創意」。
InsanityBench 試圖模擬這種瘋狂,通常只給解題者(大語言模型)一個故事、一張圖片,或是一個充滿加密數字的文字檔。有時除了「解決這個非常困難、加密的謎題」之外,沒有任何指令。
答案到底會長什麼樣 ?這 是一個提示嗎?如果我這樣做會怎樣 ?這三者是否以某種顯著的方式重合 ?
……一旦答案被 找到,回頭看謎題就像隔世一般——一切都莫名地契合。這就是 InsanityBench 試圖衡量的美感,這種美感推動了科學進步,也是大語言模型相較於其他領域最為掙扎的地方。
無法被投機取巧
我認識多位在大型科技公司工作的優秀數學家,他們領著高薪只為了編寫和閱讀思維鏈(CoT)(這現在有點過時了)、測試模型並找出它無法解決的問題(然後「修復」它)。我不太喜歡這種做法,也不相信它能持續擴展。但結果是,所有主要的基準測試分數都在上升,與實際的進步速度脫節。
InsanityBench 試圖抵制這種現象,不僅是透過保持私有(除了一個範例任務外),還透過問題本身的性質:當輸入不斷切換到未見過的格式,無論是詩歌、短篇故事、整本書、圖像、Python 代碼等,當答案和獲取路徑永遠不會重複出現時,要對數據集進行「刷榜」似乎至少是非常困難的。
過去一年中的許多基準測試都是競賽,如 IMO 和 Codeforces 等;作為一個曾從事競賽編程並代表德國參加 CEOI 的人,這類競賽所需的創意(就其設計而言)是低維度的。也就是說,你可以透過學習來應對,而來自(大量)經驗的基礎模式匹配就能讓你走得很遠。
遠未飽和
截至目前,InsanityBench 由 10 個傾注心血手工製作的任務組成,除了少數幾位初步驗證過這些任務的朋友外,無人知曉。模型的回應評分為 0 到 10 分,大致標準如下:完全正確的答案得 10 分,完成大部分解題過程得 5 分,正確解釋部分提示得 2 分。
在 10 個任務中,得分最高的模型僅獲得 15%:Gemini 3.1 Pro 完全解決了一個任務,部分解決了一個。此外,沒有任何模型在被歸類為「困難」的任務中獲得哪怕是部分分數。值得注意的是,這些任務對人類來說也很困難——但看到大語言模型在其他基準測試衡量的智力工作中已經如此嫻熟,這個極度重視創意的領域就顯得格外突出。據估計,我認為一般人可以在 1 小時左右解決未被歸類為「困難」的任務。
細節與進一步計劃
這是該基準測試的 alpha 版本。首先,我將在未來兩個月左右將任務擴展到約 25 個。這看起來可能很少,但由於自動驗證是不可能的,且「以模型作為裁判」(LLM-as-a-judge)會破壞增加任務的意義,因此我正在手動為答案評分。這通常很快,但因此擴展超過 25 個就不值得了。此外,構思這些任務很困難,需要耗費大量時間。
即使任務數量很少,不同模型的 API 成本也會迅速增加。我可能會聯繫一些供應商,詢問他們是否願意提供一些 API 額度。如果你有興趣資助部分 API 成本,請與我聯繫。特別是目前每個模型的每個任務僅查詢一次並作為代表性樣本——我想將其增加到 4 次左右,但這也會直接使成本增加 4 倍。
最後,我將發布其中一個(「簡單」)任務,但不提供解決方案。這是目前各模型解決率最高的任務,所以我不太擔心公開它。主要是為了讓大家對任務的形式有更好的感覺(即使每個任務都截然不同)。如果你嘗試手動解題並認為找到了答案,可以透過電子郵件聯繫我,我會幫你驗證。
排行榜
範例任務