我對 METR 趨勢的變化感到困惑

Lesswrong

大約 3 小時前

AI 生成摘要

我分析了 METR 基準測試趨勢線在 2024 年初出現的顯著轉折，並認為 AI 處理長任務能力的加速提升極不可能是隨機雜訊，而可能歸功於思維鏈技術或強化學習的應用。

在他們 2025 年的原始論文中，METR 注意到 2024 年及以後發布的模型，其趨勢線斜率（即任務時界翻倍時間）與 2024 年以前的模型斜率有所不同。

*首先，我決定檢查分段線性函數（piecewise linear function）是否比簡單線性函數更符合數據。如果不是，那麼這種趨勢變化就只是隨機的偶然，不值得討論。

以下是目前為止的數據（僅限 SOTA 模型）：

註：Y 軸標籤採用了易於人類閱讀的格式，但後續所有計算中使用的數據均為 log10（以分鐘為單位的原始值）。

根據貝氏資訊判準（BIC，順帶一提，越低越好）以及定性的「兄弟，看一眼就知道了」評估，分段線性函數顯然提供了更好的擬合。我額外添加了 RMSE、MAE 和 R² 作為參考資訊，但請記住，由於分段線性函數具有更多參數，它比線性函數更擬合數據是預料之中的。BIC 會對模型的複雜度（自由度數量）進行懲罰，因此在這種情況下比 RMSE/MAE/R² 更具參考價值。

然而，我並不滿足於此。讓我們從圖表中隨機移除 20% 的數據點，重複執行幾千次，看看根據 BIC，分段線性函數提供更好擬合的頻率有多高。

很明顯，分段線性函數更符合 METR 的數據。但這有可能是 METR 方法論所產生的偏差。是否有其他基準測試也出現了類似的變化？ECI（Epoch 能力指數）追溯的時間不夠久，不足以採信，ECI 上最老的 SOTA 模型是 2023 年發布的 GPT-4。如果有人知道任何包含從最老（GPT-2 和 GPT-3）到最新模型的基準測試，請告訴我。

好，假設趨勢的變化是真實的——不僅是圖表上的線條改變了，底層的現實也發生了變化。原因可能是什麼？

RLHF：不符合。最早進行 RLHF 的模型是 2022 年發布的 InstructGPT，遠在趨勢變化之前。
思維鏈（Chain-of-Thought, CoT）：這個解釋比較契合，但並不完美。分段線性擬合顯示，更快的趨勢始於 2024 年 2 月或 3 月左右。o1-preview 作為第一個*原生使用 CoT 的模型，是在 9 月發布的，比趨勢變化晚了幾個月，而且有幾個非 CoT 模型也處於這個更快的趨勢線上。即使估計的變化日期偏差了一兩個月，仍意味著趨勢在 o1-preview 發布前就已改變，且數個非 CoT 模型仍符合該快速趨勢。我傾向於這個解釋，因為另外兩個看起來可能性低得多。
各大實驗室極其擅長隱藏的某種「獨門秘方」：這看起來不太可能。如果它重要到能永久改變趨勢而非僅提供一次性改進，現在應該已經成為常識了。
更新：RLVR（強化學習與驗證器回饋）似乎是一個合理的候選者，但我不知道確切第一款大量使用 RLVR 的模型是什麼時候發布的。

更新：這是一張包含 CoT 和非 CoT 模型兩條線性擬合線的圖表。與之前的圖表不同，這張圖也包含了發布時並非 SOTA 的模型。

*這似乎是 CoT 導致趨勢變化的有力證據。不過，也有可能實驗室在 CoT 興起的同時，也開始將大量算力分配給 RLVR。

結論：

METR 趨勢的變化極不可能是隨機噪聲。
這有可能是由於某種方法論偏差導致的系統性誤差，而非隨機誤差。
據我所知，目前沒有其他基準測試包含從 GPT-2 到現在的所有 SOTA 模型，因此無法透過觀察其他基準測試的類似變化來進行可靠性檢查。
假設這不是方法論的產物，這種變化可能*歸功於 CoT，但尚不明確。如果 RLVR 的出現與 CoT 的發明重合，也可能是由 RLVR 引起的。

I am Confused by the Change in the METR Trend