Qwen-Image-2.0：專業資訊圖表，精緻寫實攝影

Hacker News

18 天前

AI 生成摘要

Alibaba 發布了 Qwen-Image-2.0 模型，該模型能夠生成專業的資訊圖表並在影像輸出中實現精緻的寫實攝影效果。

qwen.ai

blog

背景

阿里巴巴旗下的 Qwen 團隊近期發布了 Qwen-Image-2.0，這款多模態模型主打專業資訊圖表處理與極致的寫實攝影效果。在 Hacker News 的討論中，社群成員針對其生成的視覺品質、技術底層的缺陷，以及當前 AI 圖像生成市場的競爭態勢展開了深入且具備技術含量的辯論。

社群觀點

儘管 Qwen-Image-2.0 在文字渲染與細節刻畫上展現了驚人的進步，但許多資深觀察者指出，其生成的寫實影像仍帶有一種難以言喻的「恐怖谷」效應。這種不自然感被歸因於多種技術因素，其中最核心的爭議在於景深與光學物理的失真。部分評論者認為，目前的擴散模型本質上是在進行一種「空想性錯視」，即在噪點中尋找模式並將其推向訓練數據中的「原型」。這導致模型傾向於將所有材質，如牛仔褲的紋理或皮膚毛孔，都以極其清晰、甚至超越現實比例的方式呈現，產生類似「娃娃裝」或「微縮模型」的視覺錯覺。即便使用者透過提示詞要求淺景深，模型往往也只是套用一層模糊濾鏡，而非真正理解光線與鏡頭的物理交互作用。

在技術實作層面，有觀點指出 Qwen 系列長期受限於其旋轉位置編碼（RoPE）的實作問題，且隨著解析度提升，高頻偽影的問題會變得更加嚴重。目前尚無模型能完美處理 4K 等級的生成而不產生高頻噪訊。此外，關於「寫實主義」的定義在社群中也引發了分歧。有人認為 Gemini 3 Pro（被稱為 Nano Banana Pro）在處理日常隨拍感時更具優勢，因為它能模擬智慧型手機那種不完美、廣角且未經修飾的質感；相比之下，Qwen 或 Flux 等模型生成的影像往往過於「乾淨」且光影分佈過於平均，反而像是由多張照片合成的數位藝術品。

討論中也觸及了圖像生成市場的版圖變遷。曾經被視為巔峰的 Midjourney，如今被認為在提示詞遵循度與影像編輯能力上已逐漸落後於 OpenAI、Google 以及中國的競爭對手。然而，Midjourney 依然擁有一群忠實擁護者，認為其在藝術美感與風格一致性上仍具備獨特的護城河。有趣的是，Qwen 官方在展示案例中選用了一張「馬騎人」的獵奇圖像，引發了關於行銷策略的討論。部分網友認為這是一種刻意的病毒式行銷，旨在透過爭議性內容吸引點擊，但也側面證明了該模型在處理複雜動作建模與細膩肌肉紋理上的強大實力。

最後，社群也對 AI 生成內容的氾濫表示擔憂。一段關於擴散模型如何像「筆刷預設」般運作的深度技術評論，因其文風過於詳盡且邏輯嚴密，一度被懷疑是 AI 生成的內容。這引發了一場關於如何辨識「人類寫作」的討論，參與者指出，人類特有的冗長從句、跳躍式思維以及對特定隱喻的創造力，目前仍是區分真人與模型輸出的重要指標。

Qwen-Image-2.0: Professional infographics, exquisite photorealism

背景

社群觀點

延伸閱讀