SWE-CI：透過持續整合評估 AI 代理維護程式碼庫的能力

Hacker News

1 天前

AI 生成摘要

本研究介紹了 SWE-CI，這是一個旨在透過持續整合環境評估 AI 代理在軟體工程任務中表現的新型基準測試。

arxiv.org

2603

背景

SWE-CI 是一項針對 AI 代理（Agents）在持續集成（CI）環境中維護程式碼庫能力的全新評估基準。與以往僅關注單一修復任務的測試不同，該基準選取了 100 個真實世界的任務，平均涵蓋了 233 天的演進歷史與 71 次連續提交，旨在測試 AI 是否具備在長期維護過程中處理程式碼演進與回歸測試的能力。

社群觀點

在 Hacker News 的討論中，社群成員對於 SWE-CI 展現出的長期任務評估價值表示肯定，但也對其目前的數據規模與評估深度提出了質疑。有評論者指出，雖然最新的模型在處理長期任務上展現了顯著的進步，但整體而言，所有模型在防止功能回歸（Regression）方面的表現依然相當糟糕。這反映出 AI 在處理複雜程式碼庫時，往往難以兼顧新功能的開發與舊功能的穩定性。

針對該基準的設計細節，部分使用者認為雖然它追蹤了長時間的提交歷史，但平均僅 500 行程式碼的變動量，似乎不足以真正衡量所謂的「長期維護性」。對於每日使用 AI 代理的開發者來說，人類與 AI 之間最大的差異就在於對長期架構維護的遠見，而目前的測試規模可能還無法完全捕捉到這種深層次的維護能力。不過，也有觀點認為這種基於真實 GitHub 倉庫、交叉比對議題與回歸測試的作法非常有潛力，若能將數據規模擴大到與 SWE-bench 相當的程度，將能更有效地訓練並驗證模型在優化程式碼一致性方面的表現。

此外，討論中也出現了關於模型版本公平性的爭論。有留言提到 Claude 在此基準測試中表現優異，但隨即有其他使用者質疑測試所使用的模型版本可能存在落差。部分討論者指出，測試中使用的 OpenAI 模型版本似乎落後於其最新的編碼模型，這可能導致評估結果偏向特定廠商。然而，關於 OpenAI 內部特定版本（如 Codex 系列）的可用性與實際效能，社群內仍存在分歧，有人認為某些高效能版本僅限於特定工具或 CLI 使用，並未完全對外開放 API。

總體而言，社群共識認為「氛圍編程」（Vibe coding）產出的程式碼雖然快速，但若缺乏良好的維護與一致性，最終會變得難以修復且充滿漏洞。SWE-CI 的出現被視為一個積極的信號，促使模型開發者不僅要追求解決當下的 Bug，更要優化 AI 在長期開發週期中的穩定性。

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via CI

背景

社群觀點

延伸閱讀