Study: Self-generated Agent Skills are useless
Hacker News
A recent study published on Hacker News suggests that skills generated by AI agents themselves are proving to be useless. This finding challenges current approaches to AI agent development.
Hacker News
A recent study published on Hacker News suggests that skills generated by AI agents themselves are proving to be useless. This finding challenges current approaches to AI agent development.
AI 生成摘要
一篇在 Hacker News 上發布的研究指出,由 AI 代理自行生成的技能被證明是毫無用處的。這項發現對目前 AI 代理的開發方法提出了挑戰。
這篇名為《SkillsBench》的研究論文針對 AI 代理(Agent)的「自我生成技能」進行了基準測試,探討當 LLM 在解決任務前,先自行生成相關的程序性知識(即技能文件)是否真能提升表現。研究結果指出,這種缺乏外部資訊、僅依賴模型內在知識所產生的技能,對於解決多樣化任務幾乎沒有實質幫助,甚至可能因為資訊冗餘或幻覺而產生負面影響。
Hacker News 的討論對這項研究結果展現了兩極化的反應。許多開發者認為這項研究的實驗設計與現實脫節,因為在實際應用中,所謂的「自我生成技能」通常是建立在「失敗後的反思」或「外部資訊的檢索」之上。批評者指出,研究中要求模型在不接觸程式碼庫、不進行網頁搜尋的情況下,僅憑空想就先寫出技能文件,這本質上只是在重複模型已有的內在權重,自然無法帶來增益。這就像是要求一名工程師在完全不看需求與現有系統的情況下先寫出抽象層,這種做法在軟體工程中本來就是不切實際的。
然而,也有部分觀點支持研究中觀察到的「語義崩潰」現象。有留言者提出,當 LLM 的輸出被反覆當作下一層 LLM 的輸入時,資訊品質會隨著層級增加而迅速惡化,這與信號處理中的損耗性壓縮或「傳聲筒遊戲」類似。這種觀點認為,如果缺乏人類的介入或客觀的環境回饋,純粹由 AI 自我循環生成的指令集,最終會變成一種毫無意義的文字泥沼。他們強調,人類在反饋迴路中扮演著至關重要的角色,負責提供情境化的判斷與消歧,這是目前 AI 代理尚無法完全自我迭代的部分。
另一派實務派開發者則分享了「技能」在現實中的正確用法。他們認為技能不應是預先生成的,而應是作為一種「推理快取」。當代理在解決複雜問題並經過多次嘗試成功後,將學到的教訓總結為技能文件,能有效幫助下一次任務直接跳過錯誤路徑。這種做法能將昂貴的高階模型推理轉化為可重複利用的指令,甚至讓較小的模型也能藉此執行複雜任務。此外,也有人提到將技能視為「編碼規範」或「架構指南」的價值,透過手動策劃高品質的 Markdown 文件來約束代理的行為,比讓代理盲目地自我生成知識要有效得多。
最後,關於 AI 代理是否能實現真正的「持續學習」也引發了爭論。有意見認為目前的技能文件或記憶功能僅是暫時性的筆記,而非真正的權重更新。雖然這種「作弊條」式的機制在經濟效益上比微調模型更具優勢,但若要讓代理真正像人類一樣從經驗中進化,仍需更深層的學習機制。整體而言,社群共識傾向於:AI 生成技能的價值不在於「預先規劃」,而是在於「經驗總結」與「外部引導」。