GPT-5 在法律推理實驗中以 100% 對 52% 的成績超越聯邦法官

Hacker News

17 天前

AI 生成摘要

一項近期實驗顯示，GPT-5 在法律推理能力上表現優於聯邦法官，成功率高達 100%，而法官為 52%。這突顯了大型語言模型在複雜認知任務上的快速進步。

papers.ssrn.com

papers

背景

這項法律推理實驗將 GPT-5 與美國聯邦法官進行對比，結果顯示 AI 在處理特定法律程序問題時的準確率達到 100%，遠高於法官的 52%。這項研究引發了關於 AI 是否能取代司法決策者，以及法律裁決中「一致性」與「裁量權」之間權衡的激烈討論。

社群觀點

Hacker News 的討論首先聚焦於「法律錯誤」的定義。許多網友指出，法官在實驗中表現不如 AI，並非單純因為能力不足，而是因為法官在現實中往往需要進行「價值判斷」。法律並非總是黑白分明，當面對抽象的法律標準而非具體規則時，法官會行使裁量權以達成實質正義。部分評論者擔心，如果 AI 只能給出唯一且標準化的答案，這可能代表它缺乏理解案件細微差別的能力，將複雜的人類社會問題簡化為機械式的邏輯運算。

支持 AI 介入司法的人則認為，AI 的優勢在於其訓練過程與法官研讀判例的邏輯高度相似，且能有效消除人為偏見。有留言提到，現實中的法官常受個人立場影響，甚至出現權貴階級獲得優待的現象。若能引入 AI 作為「第二意見」或初步審核工具，或許能揭示出判決中偏離常態的異常點，增加系統的透明度。然而，反對者舉出青少年自拍私密照卻被依兒童色情法起訴的極端案例，強調法律若缺乏人性的緩衝，將導致荒謬且不公的結果。他們認為 AI 目前尚無法理解「法律不應成為自殺契約」的哲學，難以在法條僵化時做出符合常理的變通。

此外，社群也探討了司法系統的本質。有人主張司法系統的首要任務是讓大眾「感受到公正」，這也是陪審團制度存在的意義。如果將判決權完全交給演算法，即便邏輯再正確，也可能因缺乏社會共識而引發動盪。另一派觀點則將矛頭指向立法者，認為法律中的「臭蟲」應該由立法機關修正，而非期待法官或 AI 在執行層面補救。討論最後延伸至權力結構的擔憂：若 AI 成為最終裁決者，那麼掌握模型訓練數據與權重的人，將成為實質上的統治者，這對民主制度將是巨大的挑戰。

延伸閱讀

在討論中，網友提到了幾個與 AI 司法相關的背景資訊與案例。首先是 COMPAS 軟體，這是一個已在美國法院中用於評估被告累犯風險的演算法系統，常被作為 AI 介入司法的先驅案例討論。此外，討論中也提及了德州針對青少年傳送私密照的「羅密歐與茱麗葉法案」（Romeo and Juliet laws），作為法律如何修正僵化規則的實例。對於司法哲學感興趣的讀者，留言中也推薦了動畫《心理測量者》（Psycho-Pass），該作深入探討了由 AI 統治並預判犯罪的社會所面臨的道德困境。

GPT-5 outperforms federal judges 100% to 52% in legal reasoning experiment

背景

社群觀點

延伸閱讀