區分推理擴展與「較大任務消耗更多計算資源」

Lesswrong

17 天前

AI 生成摘要

我認為必須區分 AI 是因為處理本質上更大型的任務而增加運算量，還是真正的推理擴展（即增加相對於人類成本的運算比例來提升性能）。我懷疑 2025 年的進展主要是來自處理長時程任務的效率提升，而非單純靠增加相對於人類勞動的成本來換取進步。

正如許多人所觀察到的，自從以來，大型語言模型（LLM）用於完成任務的計算量大幅增加。這種趨勢通常被稱為「推理擴展」（inference scaling），而目前存在一個懸而未決的問題：最近的 AI 進展中，究竟有多少是。推理計算是否驅動了最近大部分的 AI 進展至關重要，因為在成本高到讓 AI 失去實用價值之前，推理擴展的空間有限（而訓練計算的成本則可以透過使用量來攤銷）。

然而，區分推理成本上升的兩個原因是很有必要的：

LLM 正在完成更大型的任務，這些任務原本需要人類花費更長時間（因此聘請人類完成的成本也會更高）。
對於給定的任務，LLM 使用的計算量佔人類成本的比例正在增加。

為了理解這一點，思考「預算與時間跨度」（budget versus time-horizon）的帕累托前沿（Pareto frontier）會很有幫助。我將以來衡量。
^()
這裡有一些虛擬數據，用來展示我預期最近進展大致呈現的樣子：
^()

對於我所使用的時間跨度概念（見前文腳註），（無輔助的）人類前沿（根據定義）是一條一直延伸到極長任務的直線。
^()

（此外，在對數-對數圖中，斜率為 1:1：成本增加 2 倍，就能完成 2 倍長的任務。在非對數-對數版本中，斜率即為人類的時薪。）
我預期 LLM 在低時間跨度時會以相同的線性擴展開始，且可能具有大致相同的斜率（即增加 2 倍時間跨度大約需要 2 倍成本），但隨後對於給定的能力水平，性能會趨於平緩，需要投入越來越多的額外推理計算才能提升性能。
^()

能力更強的 AI 會將帕累托前沿向左移動一點（效率更高），並進一步延伸線性區間，使得你在回報趨於平緩之前能達到更高的時間跨度。

在這種線性區間內，AI 基本上是使用更多計算來完成更長/更大的任務，其擴展方式與人類相似。
因此，作為人類成本比例的成本保持不變。
我認為這不應被理解為「推理擴展」，而僅僅是對應於更大的任務需要更多的工作/標記（tokens）！
^()

最終，當我們追蹤性能是否來自推理擴展時，我們關心的是性能增益是由於接近（甚至超過）人類成本的一次性增益，還是這種增益可以在不大幅增加成本的情況下重複發生。

我們可以透過將成本顯示為人類成本的比例來清楚地看到這一點（使用我之前的虛擬數據）：
^()

當使用人類成本比例作為 x 軸來觀察帕累托前沿時，我認為很自然地不會將大部分的垂直平移視為推理擴展：相反，我們應該將其視為以相同的努力/效率水平完成更大的任務。
推理擴展是指性能增益來自於增加作為人類成本比例的成本。
（顯然，人類完成成本並非深層的根本基準，但它對應於經濟實用性，且據推測在大多數領域與同樣適用於 AI 的任務規模自然概念密切相關。）
那麼，如果新發布的模型在相同（低）的人類成本比例下提升了性能（對應於先前帕累托前沿的垂直擴展區間），那麼該增益就不是來自推理擴展：這種進一步的擴展不會讓我們更接近「AI 勞動力比人類勞動力更不具成本效益」的境地（這與的觀點相反）。

作為參考，以下是原始圖表上的相同箭頭：

什麼樣的情況才算是一個新模型的發布主要透過解鎖更好的推理擴展來提供幫助？它看起來可能像這樣：

我目前懷疑在 2025 年期間，帕累托前沿的移動大多如前幾張圖所示，而非像這張圖（儘管確實發生了一些類似這樣的轉變，例如，獲得國際數學奧林匹克金牌的一些關鍵進展，很可能與相對於人類成本有效地使用更多推理計算有關）。

為了使圖表的某些方面更簡潔，我將給定任務的時間跨度定義為：如果我們從參考人類群體中隨機抽取一名人類，其有 50% 的機率完成該任務所需的時間。
我假設的是具有該精確時間跨度任務的最大預算或平均成本，而不是整個任務集的平均成本（因為這將取決於短時間跨度與長時間跨度任務的數量比例）。
這稍微簡化了情況，例如假設只能使用單個人類，但你能明白其中的意思。
取決於任務分佈，這可能會在特定的時間跨度達到漸近線，或者繼續增加但進一步計算的回報要差得多（例如對於 Lean 證明或易於檢查的軟體優化任務，你可以不斷增加計算量，但回報可能會變得非常差，相對於人類具有指數級的劣勢）。在某些領域（特別是易於檢查的領域），我預期存在一個很大的區間，其回報實質上低於 1 比 1 但仍然顯著（例如，推理計算每增加 8 倍，時間跨度增加 2 倍）。
在某些情況下，實際上可能無法大幅減少標記數量（例如對於一個軟體專案，你無法做得比一次性輸出簡潔版本的代碼更好），而在其他情況下，原則上可以減少到單個標記（例如解決一個具有數值答案的數學問題），但無論如何，我們仍然預期時間跨度與推理計算之間存在大致的線性關係。
我假設 AI 有時具有輕微的多項式優勢/劣勢，因此對數-對數圖上的斜率不完全是 1，因為這是現實中可以預期的情況。

Distinguish between inference scaling and "larger tasks use more compute"