newsence
來源篩選

SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via CI

Hacker News

This research introduces SWE-CI, a new benchmark designed to evaluate the performance of AI agents in software engineering tasks by leveraging continuous integration environments.

newsence

SWE-CI:透過持續整合評估 AI 代理維護程式碼庫的能力

Hacker News
1 天前

AI 生成摘要

本研究介紹了 SWE-CI,這是一個旨在透過持續整合環境評估 AI 代理在軟體工程任務中表現的新型基準測試。

背景

SWE-CI 是一項針對 AI 代理(Agents)在持續集成(CI)環境中維護程式碼庫能力的全新評估基準。與以往僅關注單一修復任務的測試不同,該基準選取了 100 個真實世界的任務,平均涵蓋了 233 天的演進歷史與 71 次連續提交,旨在測試 AI 是否具備在長期維護過程中處理程式碼演進與回歸測試的能力。

社群觀點

在 Hacker News 的討論中,社群成員對於 SWE-CI 展現出的長期任務評估價值表示肯定,但也對其目前的數據規模與評估深度提出了質疑。有評論者指出,雖然最新的模型在處理長期任務上展現了顯著的進步,但整體而言,所有模型在防止功能回歸(Regression)方面的表現依然相當糟糕。這反映出 AI 在處理複雜程式碼庫時,往往難以兼顧新功能的開發與舊功能的穩定性。

針對該基準的設計細節,部分使用者認為雖然它追蹤了長時間的提交歷史,但平均僅 500 行程式碼的變動量,似乎不足以真正衡量所謂的「長期維護性」。對於每日使用 AI 代理的開發者來說,人類與 AI 之間最大的差異就在於對長期架構維護的遠見,而目前的測試規模可能還無法完全捕捉到這種深層次的維護能力。不過,也有觀點認為這種基於真實 GitHub 倉庫、交叉比對議題與回歸測試的作法非常有潛力,若能將數據規模擴大到與 SWE-bench 相當的程度,將能更有效地訓練並驗證模型在優化程式碼一致性方面的表現。

此外,討論中也出現了關於模型版本公平性的爭論。有留言提到 Claude 在此基準測試中表現優異,但隨即有其他使用者質疑測試所使用的模型版本可能存在落差。部分討論者指出,測試中使用的 OpenAI 模型版本似乎落後於其最新的編碼模型,這可能導致評估結果偏向特定廠商。然而,關於 OpenAI 內部特定版本(如 Codex 系列)的可用性與實際效能,社群內仍存在分歧,有人認為某些高效能版本僅限於特定工具或 CLI 使用,並未完全對外開放 API。

總體而言,社群共識認為「氛圍編程」(Vibe coding)產出的程式碼雖然快速,但若缺乏良好的維護與一致性,最終會變得難以修復且充滿漏洞。SWE-CI 的出現被視為一個積極的信號,促使模型開發者不僅要追求解決當下的 Bug,更要優化 AI 在長期開發週期中的穩定性。

延伸閱讀

  • SWE-bench:一個評估 AI 解決真實 GitHub 軟體工程問題能力的基準測試。