Distinguish between inference scaling and "larger tasks use more compute"
Lesswrong
The article argues that we must distinguish between AI using more compute to complete inherently larger tasks versus true inference scaling, where performance gains come from increasing compute as a fraction of human cost. I suspect recent progress is driven more by efficiency in handling longer tasks than by simply spending more relative to human labor.
區分推理擴展與「較大任務消耗更多計算資源」
Lesswrong
17 天前
AI 生成摘要
我認為必須區分 AI 是因為處理本質上更大型的任務而增加運算量,還是真正的推理擴展(即增加相對於人類成本的運算比例來提升性能)。我懷疑 2025 年的進展主要是來自處理長時程任務的效率提升,而非單純靠增加相對於人類勞動的成本來換取進步。
正如許多人所觀察到的,自從以來,大型語言模型(LLM)用於完成任務的計算量大幅增加。這種趨勢通常被稱為「推理擴展」(inference scaling),而目前存在一個懸而未決的問題:最近的 AI 進展中,究竟有多少是。推理計算是否驅動了最近大部分的 AI 進展至關重要,因為在成本高到讓 AI 失去實用價值之前,推理擴展的空間有限(而訓練計算的成本則可以透過使用量來攤銷)。
然而,區分推理成本上升的兩個原因是很有必要的:
LLM 正在完成更大型的任務,這些任務原本需要人類花費更長時間(因此聘請人類完成的成本也會更高)。
對於給定的任務,LLM 使用的計算量佔人類成本的比例正在增加。
為了理解這一點,思考「預算與時間跨度」(budget versus time-horizon)的帕累托前沿(Pareto frontier)會很有幫助。我將以 來衡量。
^()
這裡有一些虛擬數據,用來展示我預期最近進展大致呈現的樣子:
^()
當使用人類成本比例作為 x 軸來觀察帕累托前沿時,我認為很自然地不會將大部分的垂直平移視為推理擴展:相反,我們應該將其視為以相同的努力/效率水平完成更大的任務。
推理擴展是指性能增益來自於增加作為人類成本比例的成本。
(顯然,人類完成成本並非深層的根本基準,但它對應於經濟實用性,且據推測在大多數領域與同樣適用於 AI 的任務規模自然概念密切相關。)
那麼,如果新發布的模型在相同(低)的人類成本比例下提升了性能(對應於先前帕累托前沿的垂直擴展區間),那麼該增益就不是來自推理擴展:這種進一步的擴展不會讓我們更接近「AI 勞動力比人類勞動力更不具成本效益」的境地(這與 的觀點相反)。