METR 的 14 小時 50% 時間跨度指標對經濟的影響將超過通用人工智慧預測時程

Lesswrong

8 天前

AI 生成摘要

METR 的最新數據顯示 Claude Opus 4.6 在軟體任務上的 50% 時間跨度已達到 14.5 小時，這引發了關於這是否預示著超指數級進展，或者 80% 時間跨度是否仍是實現完全自動化更關鍵指標的爭論。

又是一天，又是另一次 METR 圖表更新。

*METR 在 X 上：

我們估計 Claude Opus 4.6 在軟體任務上的「50% 時間跨度」（50%-time-horizon）約為 14.5 小時（95% 置信區間為 6 小時至 98 小時）。雖然這是我們報告過的最高點估計值，但由於我們目前的任務套件已接近飽和，這一測量結果存在極大的雜訊。認為這使得「超指數級進展」（superexponential progress）的可能性增加。

預測者 Peter Wildeford 到年底將達到 2 至 3.5 個工作週的時間跨度，這將對「經濟產生重大影響」。

甚至連 Ajeya Cotra（任職於 METR）現在也，她上個月的預測過於保守，更有可能出現每 3 到 4 個月翻倍一次的超指數級進展。

我們都該恐慌嗎？

當人們看到 50% 跨度的線性圖表時，感到，圖表看起來像這樣：

我認為，雖然 50% 跨度的趨勢確實比以前更快，但至少有兩個理由應對這些結果持保留態度：

正如 METR 的，他們的任務套件已接近飽和，這正如 David Rein 所的，這意味著根據他們運行評估的方式，測量出的跨度可能是 8 小時也可能是 20 小時。
在對我之前關於 Opus 4.5 的一篇貼文進行一些，並與 AI 2027 的成員進一步交流後，我的理解是，真正重要的（對於 AI 2027 類型的時間線分析而言）是可靠地實現程式碼自動化。而目前 80% 的跨度仍符合預期趨勢。

為什麼是 80% 跨度而不是 50%？50% 不也能加速經濟和研究嗎？

這個嘛，我不知道。我希望除了「我花了 30 分鐘與一個似乎比我更深入思考時間線的人交談，而他們似乎真正關心的是可靠地實現程式碼自動化」之外，能有更好的答案。

我目前對於 AI 2027 -> AI 2030 的模型大概是：「研究品味（research taste）很難自我提升」，以及「實際上需要 4 年時間才能達到超長（以年計）的 80% 跨度」。

但為什麼要超長的 80% 跨度？50% 不夠嗎？

同樣地，我希望我有更好的答案。或許可以閱讀那篇以及所有的補充材料。

我的理解是，模型中的核心關鍵在於一個名為「實現自動化工程師所需的程式碼時間跨度」（Coding time horizon required to achieve Automated Coder）的指標，你可以在上嘗試調整。

目前該指標顯示為「3.3 個工作年」。這是因為對某些人來說，要真正獲得一個自動化工程師，你需要一個能完全自主工作約 125 年（約人類最高壽命）的 AI。對其他人來說，則可能是幾個月，或大約 1 年。

例如，如果我將其更改為一個月，我會在 2028 年 8 月得到自動化工程師。

為什麼自動化工程師如此重要？那經濟呢？氛圍研究 / 寫程式呢？

這些都是有效的問題。我的猜測是，AI 2027 的支持者會說：「未能完全實現程式碼自動化會帶來一些提升，但不會像完全自動化程式碼那樣帶來瘋狂的增長」。

大概是除非你完全實現程式碼自動化，否則你仍會受限於人類的研究品味和算力問題？

METR's 14h 50% Horizon Impacts The Economy More Than ASI Timelines

我們都該恐慌嗎？

為什麼是 80% 跨度而不是 50%？50% 不也能加速經濟和研究嗎？

但為什麼要超長的 80% 跨度？50% 不夠嗎？

為什麼自動化工程師如此重要？那經濟呢？氛圍研究 / 寫程式呢？