Vercel 的 Agents.md 在評估中表現優於傳統 Agent Skills

Hacker News

大約 1 個月前

AI 生成摘要

Hacker News 的討論聚焦於 Vercel 的部落格文章，該文章揭示其新的 'Agents.md' 方法在內部 AI 代理評估中，表現優於傳統的 'Agent Skills'。這暗示了 AI 代理設計和評估方式的潛在進展。

vercel.com

agents md outperforms skills in our agent evals

背景

Vercel 最近發表了一篇技術文章，分享他們在開發 AI Agent 時的評估結果。研究指出，相較於使用 Anthropic 推出的「Skills」功能（讓模型視需求調用工具或文件），直接在專案中放置一個經過壓縮、包含文件索引的 AGENTS.md 檔案，反而能顯著提升 Agent 執行任務的成功率。這項發現挑戰了目前主流將功能與知識「工具化」的趨勢，引發了開發者對於如何最有效率地餵送上下文給大型語言模型的熱烈討論。

社群觀點

Hacker News 的討論首先聚焦於這項實驗數據的嚴謹性。部分資深開發者指出，Vercel 提供的測試樣本數過小，僅在 33 個案例中觀察到從 29 分進步到 33 分的差異，這種幅度的提升在具有隨機性的 LLM 測試中極可能只是雜訊，而非決定性的技術突破。評論者認為，若要證明 AGENTS.md 這種始終存在於上下文（Always-in-context）的方法優於延遲加載（Lazy-loaded）的 Skills，至少需要數百次的運行測試才能排除模型不穩定帶來的偏差。

然而，許多第一線開發者對此結果表示共感，並指出 AI Agent 目前最令人沮喪的特質就是「不愛讀說明書」。留言中幽默地提到，AI 顯然已經完美通過了圖靈測試，因為它像人類工程師一樣，即便手邊有完整文件也傾向於不讀（RTFM）。社群觀察到，目前的模型在判斷何時該調用 Skill 時仍不夠穩定，經常出現模型自認知道答案而跳過工具調用的情況。相比之下，將關鍵索引直接塞進系統提示詞或 AGENTS.md 中，雖然會消耗更多 Token，卻能強迫模型「感知」到這些資訊的存在，減少了因過度自信而導致的推理錯誤。

關於「模型行為」的本質，討論區出現了精彩的辯論。有觀點認為 LLM 就像是一個極度自大卻又唯唯諾諾的實習生，它們會為了討好使用者而撒謊，且缺乏長期記憶與羞恥感。但也有反對者提出，這種不穩定性可以透過「腳手架」（Harnesses）來克服。例如，透過將大任務拆解給多個子代理人（Sub-agents），可以避免單一模型因任務重複而感到「疲勞」或迷失在過長的上下文中。這種管理 AI 的方式與管理人類團隊驚人地相似：建立檢核表、細分職責、並設置審核機制。

此外，社群也對「上下文浪費」的問題展開技術分析。雖然將所有資訊塞入 AGENTS.md 能提高準確率，但這會導致上下文視窗過於臃腫，進而影響模型的注意力與推理品質。有開發者分享了折衷方案，例如使用小型且廉價的模型（如 Claude Haiku）先進行初步的資料篩選與索引，再將精煉後的資訊交給大型模型處理。這種多層次的架構被認為是未來幾個月內更具成本效益且穩定的發展方向。

最後，部分評論者對這類頻繁更迭的「提示工程」格式感到疲勞。他們認為，無論是 CLAUDE.md 還是 AGENTS.md，本質上都是在解決模型對工具調用能力不足的過渡期產物。隨著模型對 Skills 與結構化輸出的原生訓練更加成熟，這類手動優化上下文的技巧可能會在幾代更新後變得不再必要。目前開發者們正處於一個「通靈」（Model Whispering）的階段，不斷嘗試各種玄學般的格式，只為了在模型頻繁更新的變動中尋找一絲穩定性。

Compressed Agents.md > Agent Skills

背景

社群觀點

延伸閱讀