當 AI 編寫全球軟體時，誰來驗證它？

Hacker News

大約 6 小時前

AI 生成摘要

隨著 AI 極速加快軟體生產並編寫比例日益增加的關鍵基礎設施代碼，生成與驗證之間的差距正產生系統性風險，這只能透過數學證明與形式規格說明來解決。

leodemoura.github.io

when ai writes the worlds software

背景

隨著人工智慧生成程式碼的比例大幅提升，Google、微軟與 AWS 等科技巨頭已將 AI 整合進核心開發流程，甚至出現兩週內開發出十萬行編譯器的案例。然而，當開發速度呈指數級成長，傳統的人工審查與測試機制已難以追上生成速度，這引發了關於軟體正確性、安全性以及誰該為 AI 產出的「工作廢料」負責的深度討論。

社群觀點

Hacker News 的討論呈現出對 AI 開發速度與軟體品質之間失衡的集體焦慮。許多資深開發者指出，業界正逐漸遺忘過去慘痛教訓所換來的可靠性標準，現在的趨勢似乎是測試「不夠不可靠」的底線，而非追求卓越的穩定性。這種被稱為「氛圍編程」的現象，讓開發者傾向於直接接受 AI 建議而不進行細節審查，甚至有人直言，當 AI 宣稱比人類更聰明時，開發者很容易產生心理懈怠，跳過枯燥的程式碼審查。

支持者認為，AI 確實能處理大量繁瑣的樣板程式碼，讓人類專注於高層次的設計與架構。然而，反對者則憂心這會導致「理解力斷層」，因為編寫程式碼本身就是理解業務邏輯與系統邊界最快的路徑，若將思考過程外包給 AI，當系統出現致命錯誤時，將無人能解釋其運作原理或進行修復。此外，AI 在處理邏輯時常表現出「低級的愚蠢」，例如在安全要求下雖然補足了限制，卻又產生冗餘且無意義的黑名單邏輯，這種看似正確實則拙劣的產出，反而增加了審查者的認知負擔。

針對原文提出的「形式驗證」解決方案，社群內存在分歧。部分評論者認同數學證明是應對 AI 規模化產出的唯一出路，如 Lean 或 Dafny 等工具能提供機器可檢驗的正確性保證。但也有實務派指出，形式驗證的學習曲線極高，且大多數軟體開發面臨的挑戰並非證明已知規格的正確性，而是如何定義模糊的業務需求。當需求本身就在變動時，數學證明可能顯得過於僵化且成本高昂。最終，社群達成的一項共識是：AI 雖然縮短了撰寫時間，但責任歸屬依然在人類身上，若無法建立與生成速度對等的驗證機制，未來的軟體基礎設施將面臨嚴峻的系統性風險。

延伸閱讀

在討論中，參與者提到了幾項具體的工具與實踐案例。例如 AWS 的 Cedar 授權策略引擎實際上是使用 Dafny 撰寫以確保安全性，而非原文誤植的 Lean。此外，也有開發者分享了使用 Claude Code 搭配不同模型（如 GPT-4）進行交叉審查的流程，試圖透過「AI 審查 AI」並給予品質評分的方式來過濾低質量的產出。針對軟體成本與品質的量化研究，則可參考美國軟體品質聯盟（CISQ）於 2022 年發布的經濟損失報告。

When AI Writes the Software, Who Verifies It?

背景

社群觀點

延伸閱讀