AI benchmarks often lack natural units, making it misleading to interpret their scores as linear measures of progress or to predict future trends based on their slopes. We should be cautious of 'grab-bag' metrics and instead prioritize benchmarks with natural units or principled task selection that reflect real-world capabilities.
AI 基準測試存在 Y 軸問題
Lesswrong
22 天前
AI 生成摘要
AI 基準測試通常缺乏自然單位,這使得將其分數解讀為進步的線性指標,或根據其斜率預測未來趨勢變得具有誤導性。我們應該對「大雜燴式」的指標保持警惕,轉而優先考慮具有自然單位或基於原則選題、能反映真實世界能力的基準測試。
^() 如果我沒記錯,這包括 FrontierMath、ARC-AGI、Humanity’s Last Exam、GPQA Diamond 等。不過,正如我下面將討論的,也有例外。
^() 我認為這實際上可以非常強大。例如:
我們可以觀察滯後情況,看看例如,或者。
或者我們可以觀察跨領域的基準測試模式,例如:「在 X 類基準測試中擊敗其他的模型,通常在 Y 類基準測試中?」
或者,如果我們也收集了更多人類基準數據,我們可以問諸如「對於我們知道 AI 系統能做的任務,它們比人類便宜/快多少」之類的問題。
特別是,比率可以幫助我們抵消不可靠的單位,例如「給定評分系統中 1 分增長所代表的 AI 進步的確切量」。(儘管如果基準測試趨於飽和,比率仍可能繼承問題,因為當每個人都達到同樣的天花板時,追趕就變得毫無意義。)
^() 模型通常能完成需要人類花費那麼長時間的軟體任務的最長時間跨度。
^() 這裡存在一種張力:窄指標較難推廣(「在圍棋上超越人類」對 AI 風險等級意味著什麼?)。但在其領域內,它們比廣泛指標在其領域內更可靠。
鑑於我們在製作「自然」的通用指標方面表現多麼糟糕,我寧願擁有我可以信任的較弱推廣性。
^() 如果你想簡化這一點,你可以將其視為代表 AI 系統/實體能力強弱的唯一真實數字。否則:
不存在規範的「能力維度」(例如考慮到不同的模型和實體發現不同的任務更難/更容易,而且可能根本沒有一種真實的方法來對一個邏輯極佳但記憶力差的技能組與其相反的技能組進行排名)。但我們通常可以合理地選擇一個特定的能力維度來關注;例如,當我們問時間線是否在加速/放緩時,我們通常是在問類似「我們預期通往 AGI 的路徑上的進展是否在加速?」之類的問題。因此,我們尋找的「真實」維度可能會變成預期通往 AGI 的路徑維度。或者我們可以鎖定我們關心的特定技能,例如編碼能力(儘管那樣的話,詢問你心目中的「真實」指標是什麼仍然很有用)。
^() 如果你真的搞砸了這種映射,你不僅會得到扭曲。你可能會得到例如「倒退」;當「我們關心的真實能力」上升時,分數反而下降。我認為我們在避免這種情況方面做得好得多。(有一種相關的情況,我們可能會看到這種表面的「倒退」:如果我們正在觀察一個非常專業的基準測試,它不在 AI 公司關心的路徑上,或者與某些深層的「一般智能」因素不高度相關。當「真實能力」上升時,那個分數可能會下降,但我認為這不一定是扭曲的投影。這裡更好的模型可能是將其視為其他事物的投影——能力空間中的某些其他維度/路徑——並考慮該事物與我們正在思考的「真實能力」維度之間的關係。)
^() 事實上,我認為人們(包括基準測試創建者,包括那些關注 AI 安全或類似領域的人)通常非常不清楚他們實際試圖測量的是什麼。
(還有另一個。)