newsence
來源篩選

InsanityBench: Cryptic Puzzles as a Probe for Lateral Thinking

Lesswrong

InsanityBench is a new benchmark of handcrafted cryptic puzzles designed to measure the creative conceptual leaps and lateral thinking that LLMs currently struggle with compared to human scientific breakthroughs. While SOTA models score only around 10-15%, these puzzles are intentionally difficult to game and aim to evaluate the 'productive insanity' required for true innovation.

newsence

InsanityBench:以神秘謎題探測水平思考能力

Lesswrong
5 天前

AI 生成摘要

InsanityBench 是一個由手工設計的神秘謎題組成的基準測試,旨在衡量大型語言模型在面對類似科學突破所需的創意概念飛躍與側向思維能力。雖然目前頂尖模型的得分僅約 10-15%,但這些謎題難以透過刷題作弊,目的是評估真正創新所需的「生產性瘋狂」。

TLDR: InsanityBench 是一個由手工製作的加密謎題組成的基準測試,旨在衡量科學突破等領域所需的創意概念飛躍。目前頂尖(SOTA)模型的得分約為 10%。該基準測試仍處於極早期階段,需要適當擴大規模以減少變異量。


給你這張圖片並提示你「解決」它,只留下標題「及時之旅」(Timely Journey)。你會想到什麼?

(如果你真的想嘗試,請先停止閱讀,

多米諾骨牌顯然是在暗示 2016 年 4 月,當時他們發表了另一個名為「漫長旅程」(Long. Journey)的謎題,其中包含了座標。同樣顯而易見的是,頂部的植物是百里香(Thyme),你必須將木石解釋為 Z,且有一堆骰子顯示為「1」(ones);自然地,Thyme + Z + ones = Time zones(時區)。當然。看到那些圖釘了嗎?是的,它們指向 Shift(位移/換檔鍵),因為你必須將一些字母向後推移。(以此類推,但我會為你的理智著想而就此打住)

如果還不明顯的話,我是在反諷。這一切都不顯而易見——但仍有一種奇異的美感。

什麼是 InsanityBench

InsanityBench 旨在成為一個封裝了我們深切關注的事物(科學中經常需要的「瘋狂」創意飛躍)的基準測試,它幾乎無法被投機取巧(因為每個任務都完全不同),且遠未達到飽和(表現最好的模型得分僅為 15%)。

瘋狂與創意

回顧人類歷史,尤其是科學史,有許多關鍵時刻,個人提出的想法如此具有爭議性,以至於乍看之下會被冠以「瘋狂」之名。「具生產力的瘋狂」似乎是指你能提出並投入那些乍看之下荒謬,但從正確角度觀察時卻是最簡單解釋的想法——它們不知為何能與每一條證據完美契合,突然間,「瘋狂」就變成了「創意」。

InsanityBench 試圖模擬這種瘋狂,通常只給解題者(大語言模型)一個故事、一張圖片,或是一個充滿加密數字的文字檔。有時除了「解決這個非常困難、加密的謎題」之外,沒有任何指令。

答案到底會長什麼樣是一個提示嗎?如果我這樣做會怎樣?這三者是否以某種顯著的方式重合

……一旦答案找到,回頭看謎題就像隔世一般——一切都莫名地契合。這就是 InsanityBench 試圖衡量的美感,這種美感推動了科學進步,也是大語言模型相較於其他領域最為掙扎的地方。

無法被投機取巧

我認識多位在大型科技公司工作的優秀數學家,他們領著高薪只為了編寫和閱讀思維鏈(CoT)(這現在有點過時了)、測試模型並找出它無法解決的問題(然後「修復」它)。我不太喜歡這種做法,也不相信它能持續擴展。但結果是,所有主要的基準測試分數都在上升,與實際的進步速度脫節。

InsanityBench 試圖抵制這種現象,不僅是透過保持私有(除了一個範例任務外),還透過問題本身的性質:當輸入不斷切換到未見過的格式,無論是詩歌、短篇故事、整本書、圖像、Python 代碼等,當答案和獲取路徑永遠不會重複出現時,要對數據集進行「刷榜」似乎至少是非常困難的。

過去一年中的許多基準測試都是競賽,如 IMO 和 Codeforces 等;作為一個曾從事競賽編程並代表德國參加 CEOI 的人,這類競賽所需的創意(就其設計而言)是低維度的。也就是說,你可以透過學習來應對,而來自(大量)經驗的基礎模式匹配就能讓你走得很遠。

遠未飽和

截至目前,InsanityBench 由 10 個傾注心血手工製作的任務組成,除了少數幾位初步驗證過這些任務的朋友外,無人知曉。模型的回應評分為 0 到 10 分,大致標準如下:完全正確的答案得 10 分,完成大部分解題過程得 5 分,正確解釋部分提示得 2 分。

在 10 個任務中,得分最高的模型僅獲得 15%:Gemini 3.1 Pro 完全解決了一個任務,部分解決了一個。此外,沒有任何模型在被歸類為「困難」的任務中獲得哪怕是部分分數。值得注意的是,這些任務對人類來說也很困難——但看到大語言模型在其他基準測試衡量的智力工作中已經如此嫻熟,這個極度重視創意的領域就顯得格外突出。據估計,我認為一般人可以在 1 小時左右解決未被歸類為「困難」的任務。

細節與進一步計劃

這是該基準測試的 alpha 版本。首先,我將在未來兩個月左右將任務擴展到約 25 個。這看起來可能很少,但由於自動驗證是不可能的,且「以模型作為裁判」(LLM-as-a-judge)會破壞增加任務的意義,因此我正在手動為答案評分。這通常很快,但因此擴展超過 25 個就不值得了。此外,構思這些任務很困難,需要耗費大量時間。

即使任務數量很少,不同模型的 API 成本也會迅速增加。我可能會聯繫一些供應商,詢問他們是否願意提供一些 API 額度。如果你有興趣資助部分 API 成本,請與我聯繫。特別是目前每個模型的每個任務僅查詢一次並作為代表性樣本——我想將其增加到 4 次左右,但這也會直接使成本增加 4 倍。

最後,我將發布其中一個(「簡單」)任務,但不提供解決方案。這是目前各模型解決率最高的任務,所以我不太擔心公開它。主要是為了讓大家對任務的形式有更好的感覺(即使每個任務都截然不同)。如果你嘗試手動解題並認為找到了答案,可以透過電子郵件聯繫我,我會幫你驗證。