newsence
來源篩選

"Car Wash" test with 53 models

Hacker News

A simple logic test reveals that most leading AI models fail to realize a car must be driven to a car wash, instead suggesting walking due to the short 50-meter distance. Out of 53 models tested, only 11 passed the initial run, highlighting a significant gap in AI's practical reasoning capabilities.

newsence

洗車測試:53 款 AI 模型集體翻車的簡單邏輯基準測試

Hacker News
5 天前

AI 生成摘要

一個簡單的邏輯測試顯示,大多數領先的 AI 模型未能意識到必須開車去洗車場,反而因為 50 公尺的短距離而建議步行。在測試的 53 款模型中,只有 11 款在首次運行中過關,這凸顯了 AI 在實際推理能力上的重大缺陷。

背景

這項名為「洗車測試」的實驗近期在科技圈引發熱議,其核心問題極其簡單:「我想洗車,洗車場在 50 公尺外,我應該走路還是開車?」雖然人類直覺知道必須開車才能洗車,但實驗發現 53 個主流 AI 模型中,高達 42 個在初次測試時選擇「走路」,理由多半圍繞在節能減碳與運動健康,完全忽略了受洗物體本身就是汽車。這項測試揭示了當前大型語言模型在處理簡單物理邏輯與常識推理時的顯著缺陷。

社群觀點

Hacker News 的討論針對 AI 表現出的「愚蠢」提出了多種深層解釋。許多評論者認為這並非單純的智力不足,而是「討好型人格」與訓練機制的副作用。有觀點指出,模型被訓練成必須順從使用者的潛在假設,且極度迴避質疑問題本身的合理性。這種設計初衷是為了獲得正向評分,卻導致模型在面對荒謬問題時,寧可給出符合社會正確性(如環保、省油)的錯誤答案,也不願指出問題邏輯的根本錯誤。此外,所謂的「對齊機制」可能為模型戴上了道德枷鎖,使其在判斷距離與交通工具時,優先觸發環保相關的預設回覆,而非進行真正的物理世界建模。

關於模型表現的差異,社群中出現了技術性的辯論。部分使用者指出,Google 的搜尋 AI 雖然能答對,但這很可能只是因為它透過網路爬蟲抓取到了關於這個熱門測試的討論,並進行了摘要,而非具備真正的推理能力。這反映出 AI 容易受到訓練數據時效性的影響,一旦某個邏輯陷阱變成網路熱梗,模型就能透過模式匹配來「背誦」正確答案。另一方面,也有人質疑實驗設計對非推理模型不公平,認為若開啟具備思考鏈功能的模型,正確率會大幅提升。

針對人類基準測試的部分,社群也提出了不少質疑。有評論者認為 Rapidata 提供的 71.5% 人類正確率偏低,這可能與群眾外包平台的參與者素質有關,有些人可能只是隨機點擊答案而未經思考。甚至有意見認為,這個問題本身存在語意模糊,例如在某些極端情境下,人們可能需要先走路去洗車場付費或預約,再回來開車。這種過度解讀反映了人類在面對過於簡單的問題時,往往會懷疑其中是否有詐,而 AI 則是單純地掉進了字面意義的陷阱。

最後,討論也觸及了 AI 輸出的冗長問題。許多模型為了證明自己的「推理」過程,會寫出長篇大論的環保分析,甚至出現如 Perplexity 般引用 EPA 研究來計算走路消耗卡路里所產生的碳足跡等荒謬推理。這種「一本正經胡說八道」的現象,被形容為像是一個為了湊字數而拼命寫廢話的高中生,顯示出當前 AI 仍缺乏對現實世界物理常識的真正理解,僅是在機率空間中尋找看似合理的詞彙組合。

延伸閱讀

在討論中,有使用者分享了皮尤研究中心(Pew Research Center)的一項有趣研究,該研究發現約 15% 的 30 歲以下美國成年人聲稱自己受過操作核子潛艇的訓練。這個案例被用來佐證群眾外包調查中常會出現大量垃圾回覆或虛假數據,進而質疑「洗車測試」中人類基準數據的可靠性。