METR's 14h 50% Horizon Impacts The Economy More Than ASI Timelines
Lesswrong
METR's latest data shows Claude Opus 4.6 reaching a 14.5-hour 50% time horizon on software tasks, sparking debate on whether this indicates superexponential progress or if the 80% horizon remains the more critical metric for full automation.
METR 的 14 小時 50% 時間跨度指標對經濟的影響將超過通用人工智慧預測時程
Lesswrong
8 天前
AI 生成摘要
METR 的最新數據顯示 Claude Opus 4.6 在軟體任務上的 50% 時間跨度已達到 14.5 小時,這引發了關於這是否預示著超指數級進展,或者 80% 時間跨度是否仍是實現完全自動化更關鍵指標的爭論。
又是一天,又是另一次 METR 圖表更新。
*METR 在 X 上:
我們估計 Claude Opus 4.6 在軟體任務上的「50% 時間跨度」(50%-time-horizon)約為 14.5 小時(95% 置信區間為 6 小時至 98 小時)。雖然這是我們報告過的最高點估計值,但由於我們目前的任務套件已接近飽和,這一測量結果存在極大的雜訊。認為這使得「超指數級進展」(superexponential progress)的可能性增加。
預測者 Peter Wildeford 到年底將達到 2 至 3.5 個工作週的時間跨度,這將對「經濟產生重大影響」。