newsence
來源篩選

I am Confused by the Change in the METR Trend

Lesswrong

The author analyzes a significant shift in the METR benchmark trendline starting in early 2024, suggesting that the acceleration in AI task completion capabilities is likely driven by Chain-of-Thought reasoning or RLVR rather than random noise.

newsence

我對 METR 趨勢的變化感到困惑

Lesswrong
大約 3 小時前

AI 生成摘要

我分析了 METR 基準測試趨勢線在 2024 年初出現的顯著轉折,並認為 AI 處理長任務能力的加速提升極不可能是隨機雜訊,而可能歸功於思維鏈技術或強化學習的應用。

在他們 2025 年的原始論文中,METR 注意到 2024 年及以後發布的模型,其趨勢線斜率(即任務時界翻倍時間)與 2024 年以前的模型斜率有所不同。

*首先,我決定檢查分段線性函數(piecewise linear function)是否比簡單線性函數更符合數據。如果不是,那麼這種趨勢變化就只是隨機的偶然,不值得討論。

以下是目前為止的數據(僅限 SOTA 模型):

註:Y 軸標籤採用了易於人類閱讀的格式,但後續所有計算中使用的數據均為 log10(以分鐘為單位的原始值)。

根據貝氏資訊判準(BIC,順帶一提,越低越好)以及定性的「兄弟,看一眼就知道了」評估,分段線性函數顯然提供了更好的擬合。我額外添加了 RMSE、MAE 和 R² 作為參考資訊,但請記住,由於分段線性函數具有更多參數,它比線性函數更擬合數據是預料之中的。BIC 會對模型的複雜度(自由度數量)進行懲罰,因此在這種情況下比 RMSE/MAE/R² 更具參考價值。

然而,我並不滿足於此。讓我們從圖表中隨機移除 20% 的數據點,重複執行幾千次,看看根據 BIC,分段線性函數提供更好擬合的頻率有多高。

很明顯,分段線性函數更符合 METR 的數據。但這有可能是 METR 方法論所產生的偏差。是否有其他基準測試也出現了類似的變化?ECI(Epoch 能力指數)追溯的時間不夠久,不足以採信,ECI 上最老的 SOTA 模型是 2023 年發布的 GPT-4。如果有人知道任何包含從最老(GPT-2 和 GPT-3)到最新模型的基準測試,請告訴我。

好,假設趨勢的變化是真實的——不僅是圖表上的線條改變了,底層的現實也發生了變化。原因可能是什麼?

  • RLHF:不符合。最早進行 RLHF 的模型是 2022 年發布的 InstructGPT,遠在趨勢變化之前。
  • 思維鏈(Chain-of-Thought, CoT):這個解釋比較契合,但並不完美。分段線性擬合顯示,更快的趨勢始於 2024 年 2 月或 3 月左右。o1-preview 作為第一個*原生使用 CoT 的模型,是在 9 月發布的,比趨勢變化晚了幾個月,而且有幾個非 CoT 模型也處於這個更快的趨勢線上。即使估計的變化日期偏差了一兩個月,仍意味著趨勢在 o1-preview 發布前就已改變,且數個非 CoT 模型仍符合該快速趨勢。我傾向於這個解釋,因為另外兩個看起來可能性低得多。
  • 各大實驗室極其擅長隱藏的某種「獨門秘方」:這看起來不太可能。如果它重要到能永久改變趨勢而非僅提供一次性改進,現在應該已經成為常識了。
  • 更新:RLVR(強化學習與驗證器回饋)似乎是一個合理的候選者,但我不知道確切第一款大量使用 RLVR 的模型是什麼時候發布的。

更新:這是一張包含 CoT 和非 CoT 模型兩條線性擬合線的圖表。與之前的圖表不同,這張圖也包含了發布時並非 SOTA 的模型。

*這似乎是 CoT 導致趨勢變化的有力證據。不過,也有可能實驗室在 CoT 興起的同時,也開始將大量算力分配給 RLVR。

結論:

  • METR 趨勢的變化極不可能是隨機噪聲。
  • 這有可能是由於某種方法論偏差導致的系統性誤差,而非隨機誤差。
  • 據我所知,目前沒有其他基準測試包含從 GPT-2 到現在的所有 SOTA 模型,因此無法透過觀察其他基準測試的類似變化來進行可靠性檢查。
  • 假設這不是方法論的產物,這種變化可能*歸功於 CoT,但尚不明確。如果 RLVR 的出現與 CoT 的發明重合,也可能是由 RLVR 引起的。