The author analyzes a significant shift in the METR benchmark trendline starting in early 2024, suggesting that the acceleration in AI task completion capabilities is likely driven by Chain-of-Thought reasoning or RLVR rather than random noise.
我對 METR 趨勢的變化感到困惑
Lesswrong
大約 3 小時前
AI 生成摘要
我分析了 METR 基準測試趨勢線在 2024 年初出現的顯著轉折,並認為 AI 處理長任務能力的加速提升極不可能是隨機雜訊,而可能歸功於思維鏈技術或強化學習的應用。
很明顯,分段線性函數更符合 METR 的數據。但這有可能是 METR 方法論所產生的偏差。是否有其他基準測試也出現了類似的變化?ECI(Epoch 能力指數)追溯的時間不夠久,不足以採信,ECI 上最老的 SOTA 模型是 2023 年發布的 GPT-4。如果有人知道任何包含從最老(GPT-2 和 GPT-3)到最新模型的基準測試,請告訴我。