newsence
來源篩選

METR's 14h 50% Horizon Impacts The Economy More Than ASI Timelines

Lesswrong

METR's latest data shows Claude Opus 4.6 reaching a 14.5-hour 50% time horizon on software tasks, sparking debate on whether this indicates superexponential progress or if the 80% horizon remains the more critical metric for full automation.

newsence

METR 的 14 小時 50% 時間跨度指標對經濟的影響將超過通用人工智慧預測時程

Lesswrong
8 天前

AI 生成摘要

METR 的最新數據顯示 Claude Opus 4.6 在軟體任務上的 50% 時間跨度已達到 14.5 小時,這引發了關於這是否預示著超指數級進展,或者 80% 時間跨度是否仍是實現完全自動化更關鍵指標的爭論。

又是一天,又是另一次 METR 圖表更新。

*METR 在 X 上

我們估計 Claude Opus 4.6 在軟體任務上的「50% 時間跨度」(50%-time-horizon)約為 14.5 小時(95% 置信區間為 6 小時至 98 小時)。雖然這是我們報告過的最高點估計值,但由於我們目前的任務套件已接近飽和,這一測量結果存在極大的雜訊。認為這使得「超指數級進展」(superexponential progress)的可能性增加。

預測者 Peter Wildeford 到年底將達到 2 至 3.5 個工作週的時間跨度,這將對「經濟產生重大影響」。

甚至連 Ajeya Cotra(任職於 METR)現在也,她上個月的預測過於保守,更有可能出現每 3 到 4 個月翻倍一次的超指數級進展。

我們都該恐慌嗎?

當人們看到 50% 跨度的線性圖表時,感到,圖表看起來像這樣:

我認為,雖然 50% 跨度的趨勢確實比以前更快,但至少有兩個理由應對這些結果持保留態度:

  • 正如 METR 的,他們的任務套件已接近飽和,這正如 David Rein 所的,這意味著根據他們運行評估的方式,測量出的跨度可能是 8 小時也可能是 20 小時。
  • 在對我之前關於 Opus 4.5 的一篇貼文進行一些,並與 AI 2027 的成員進一步交流後,我的理解是,真正重要的(對於 AI 2027 類型的時間線分析而言)是可靠地實現程式碼自動化。而目前 80% 的跨度仍符合預期趨勢。

為什麼是 80% 跨度而不是 50%?50% 不也能加速經濟和研究嗎?

這個嘛,我不知道。我希望除了「我花了 30 分鐘與一個似乎比我更深入思考時間線的人交談,而他們似乎真正關心的是可靠地實現程式碼自動化」之外,能有更好的答案。

我目前對於 AI 2027 -> AI 2030 的模型大概是:「研究品味(research taste)很難自我提升」,以及「實際上需要 4 年時間才能達到超長(以年計)的 80% 跨度」。

但為什麼要超長的 80% 跨度?50% 不夠嗎?

同樣地,我希望我有更好的答案。或許可以閱讀那篇以及所有的補充材料。

我的理解是,模型中的核心關鍵在於一個名為「實現自動化工程師所需的程式碼時間跨度」(Coding time horizon required to achieve Automated Coder)的指標,你可以在 上嘗試調整。

目前該指標顯示為「3.3 個工作年」。這是因為對某些人來說,要真正獲得一個自動化工程師,你需要一個能完全自主工作約 125 年(約人類最高壽命)的 AI。對其他人來說,則可能是幾個月,或大約 1 年。

例如,如果我將其更改為一個月,我會在 2028 年 8 月得到自動化工程師。

為什麼自動化工程師如此重要?那經濟呢?氛圍研究 / 寫程式呢?

這些都是有效的問題。我的猜測是,AI 2027 的支持者會說:「未能完全實現程式碼自動化會帶來一些提升,但不會像完全自動化程式碼那樣帶來瘋狂的增長」。

大概是除非你完全實現程式碼自動化,否則你仍會受限於人類的研究品味和算力問題?