GPT-5 outperforms federal judges 100% to 52% in legal reasoning experiment
Hacker News
A recent experiment revealed that GPT-5 demonstrated superior legal reasoning capabilities compared to federal judges, achieving a 100% success rate versus the judges' 52%. This highlights the rapidly advancing performance of large language models in complex cognitive tasks.
這項法律推理實驗將 GPT-5 與美國聯邦法官進行對比,結果顯示 AI 在處理特定法律程序問題時的準確率達到 100%,遠高於法官的 52%。這項研究引發了關於 AI 是否能取代司法決策者,以及法律裁決中「一致性」與「裁量權」之間權衡的激烈討論。
社群觀點
Hacker News 的討論首先聚焦於「法律錯誤」的定義。許多網友指出,法官在實驗中表現不如 AI,並非單純因為能力不足,而是因為法官在現實中往往需要進行「價值判斷」。法律並非總是黑白分明,當面對抽象的法律標準而非具體規則時,法官會行使裁量權以達成實質正義。部分評論者擔心,如果 AI 只能給出唯一且標準化的答案,這可能代表它缺乏理解案件細微差別的能力,將複雜的人類社會問題簡化為機械式的邏輯運算。
支持 AI 介入司法的人則認為,AI 的優勢在於其訓練過程與法官研讀判例的邏輯高度相似,且能有效消除人為偏見。有留言提到,現實中的法官常受個人立場影響,甚至出現權貴階級獲得優待的現象。若能引入 AI 作為「第二意見」或初步審核工具,或許能揭示出判決中偏離常態的異常點,增加系統的透明度。然而,反對者舉出青少年自拍私密照卻被依兒童色情法起訴的極端案例,強調法律若缺乏人性的緩衝,將導致荒謬且不公的結果。他們認為 AI 目前尚無法理解「法律不應成為自殺契約」的哲學,難以在法條僵化時做出符合常理的變通。
此外,社群也探討了司法系統的本質。有人主張司法系統的首要任務是讓大眾「感受到公正」,這也是陪審團制度存在的意義。如果將判決權完全交給演算法,即便邏輯再正確,也可能因缺乏社會共識而引發動盪。另一派觀點則將矛頭指向立法者,認為法律中的「臭蟲」應該由立法機關修正,而非期待法官或 AI 在執行層面補救。討論最後延伸至權力結構的擔憂:若 AI 成為最終裁決者,那麼掌握模型訓練數據與權重的人,將成為實質上的統治者,這對民主制度將是巨大的挑戰。
延伸閱讀
在討論中,網友提到了幾個與 AI 司法相關的背景資訊與案例。首先是 COMPAS 軟體,這是一個已在美國法院中用於評估被告累犯風險的演算法系統,常被作為 AI 介入司法的先驅案例討論。此外,討論中也提及了德州針對青少年傳送私密照的「羅密歐與茱麗葉法案」(Romeo and Juliet laws),作為法律如何修正僵化規則的實例。對於司法哲學感興趣的讀者,留言中也推薦了動畫《心理測量者》(Psycho-Pass),該作深入探討了由 AI 統治並預判犯罪的社會所面臨的道德困境。