Gemini 3 Deep Think drew me a good SVG of a pelican riding a bicycle
Hacker News
A Hacker News user shared their positive experience with Gemini 3 Deep Think, highlighting its ability to generate a well-crafted SVG image of a pelican riding a bicycle.
科技部落客 Simon Willison 近期測試了 Google 推出的新模型 Gemini 3 Deep Think,發現其在生成「鵜鶘騎腳踏車」的 SVG 向量圖表現極其出色。這項測試源於 Willison 長期以來對 AI 空間推理能力的非正式基準測試,過去多數模型在處理複雜的幾何關係與特定生物特徵時常顯得力不從心,而 Gemini 3 的表現引發了 Hacker News 社群對於 AI 進化程度與訓練數據偏誤的熱烈討論。
社群觀點
社群對於 Gemini 3 產出的精美圖像反應兩極,核心爭論點在於這究竟是模型推理能力的質變,還是針對特定基準測試的「過度優化」。部分評論者指出,由於「鵜鶘騎腳踏車」已成為知名的 AI 測試案例,各大實驗室極可能將此類數據納入訓練集,甚至出現「刷榜」現象,導致該指標因成為目標而失去衡量價值的「古德哈特定律」效應。然而,也有支持者反駁,除非有證據顯示模型是硬編碼輸出,否則即便針對特定主題優化,其展現出的空間佈局與代碼生成能力依然具有參考價值。
此外,關於 AI 是否「作弊」的討論也相當熱烈。有人懷疑模型可能在後台先生成位圖再進行向量化追蹤,但 Willison 親自檢查了推理軌跡與環境限制,初步排除了這種可能性。社群中也出現了另一種樂觀的聲音,認為與其爭論是否針對特定題目訓練,不如承認 AI 在處理空間推理與代碼合成上確實有了長足進步。許多開發者分享,現在他們已不再依賴圖庫,而是直接讓 AI 生成所需的 SVG 圖標,這證明了這項能力在實際生產環境中的實用性。
延伸閱讀
在討論過程中,留言者提到了幾個具代表性的數位影像基準與測試工具。例如早期數位影像壓縮領域著名的「Lenna」圖,以及用於影片測試的「Foreman」片段。此外,有網友分享了「Clocks」測試網站,該網站專門測試 AI 模型在繪製時鐘指針位置時的準確度,這與 SVG 鵜鶘測試有異曲同工之妙,皆在挑戰模型的空間邏輯極限。