newsence
來源篩選

Gemini 3 Deep Think drew me a good SVG of a pelican riding a bicycle

Hacker News

A Hacker News user shared their positive experience with Gemini 3 Deep Think, highlighting its ability to generate a well-crafted SVG image of a pelican riding a bicycle.

newsence

Gemini 3 Deep Think 為我畫了一張騎著自行車的鵜鶘的精美 SVG 圖

Hacker News
14 天前

AI 生成摘要

一位 Hacker News 的使用者分享了他們使用 Gemini 3 Deep Think 的正面體驗,特別讚揚了它能夠生成一張精美的 SVG 圖,內容是一隻騎著自行車的鵜鶘。

背景

科技部落客 Simon Willison 近期測試了 Google 推出的新模型 Gemini 3 Deep Think,發現其在生成「鵜鶘騎腳踏車」的 SVG 向量圖表現極其出色。這項測試源於 Willison 長期以來對 AI 空間推理能力的非正式基準測試,過去多數模型在處理複雜的幾何關係與特定生物特徵時常顯得力不從心,而 Gemini 3 的表現引發了 Hacker News 社群對於 AI 進化程度與訓練數據偏誤的熱烈討論。

社群觀點

社群對於 Gemini 3 產出的精美圖像反應兩極,核心爭論點在於這究竟是模型推理能力的質變,還是針對特定基準測試的「過度優化」。部分評論者指出,由於「鵜鶘騎腳踏車」已成為知名的 AI 測試案例,各大實驗室極可能將此類數據納入訓練集,甚至出現「刷榜」現象,導致該指標因成為目標而失去衡量價值的「古德哈特定律」效應。然而,也有支持者反駁,除非有證據顯示模型是硬編碼輸出,否則即便針對特定主題優化,其展現出的空間佈局與代碼生成能力依然具有參考價值。

在技術層面上,不少專業人士對 SVG 生成這項任務給予高度評價。他們認為 SVG 測試比一般的擴散模型繪圖更難,因為模型必須在沒有視覺反饋的情況下,於座標系統中進行純粹的邏輯推理。Gemini 3 的「深思」機制被認為是成功的關鍵,透過思維鏈,模型能反覆推敲踏板與輪胎的相對位置。儘管如此,腳踏車愛好者與專業繪圖者仍從細節中挑出瑕疵,例如前叉與車架連為一體導致無法轉向、輪胎比例過小,以及鵜鶘的坐姿在物理上極不合理。這些批評者認為,這類圖像雖然視覺上討喜,但本質上仍是「AI 廢料」,經不起嚴謹的邏輯推敲。

此外,關於 AI 是否「作弊」的討論也相當熱烈。有人懷疑模型可能在後台先生成位圖再進行向量化追蹤,但 Willison 親自檢查了推理軌跡與環境限制,初步排除了這種可能性。社群中也出現了另一種樂觀的聲音,認為與其爭論是否針對特定題目訓練,不如承認 AI 在處理空間推理與代碼合成上確實有了長足進步。許多開發者分享,現在他們已不再依賴圖庫,而是直接讓 AI 生成所需的 SVG 圖標,這證明了這項能力在實際生產環境中的實用性。

延伸閱讀

在討論過程中,留言者提到了幾個具代表性的數位影像基準與測試工具。例如早期數位影像壓縮領域著名的「Lenna」圖,以及用於影片測試的「Foreman」片段。此外,有網友分享了「Clocks」測試網站,該網站專門測試 AI 模型在繪製時鐘指針位置時的準確度,這與 SVG 鵜鶘測試有異曲同工之妙,皆在挑戰模型的空間邏輯極限。