背景
這項名為「Hallucinating Splines」的週末專案,將開源的《模擬城市》(SimCity)原始引擎 Micropolis 轉化為一個具備 REST API 與 MCP 伺服器的無頭模擬平台。開發者 Andrew Dunn 最初嘗試讓 Claude 透過模擬器玩超任版遊戲,卻發現 AI 在處理視覺輸入與操作指令上遇到極大困難,最終決定直接在模擬引擎上架設 API,讓 AI 代理人能以「市長」的身分直接透過程式碼進行城市建設與管理。
社群觀點
Hacker News 社群對此專案展現了高度興趣,討論核心圍繞在大型語言模型(LLM)處理空間邏輯的侷限性,以及這類「遊戲實驗室」對 AI 演進的指標意義。許多參與者指出,雖然目前的 LLM 在文字推理上表現優異,但在處理地圖座標、電力線連接與道路佈局等空間任務時,表現往往像個步履蹣跚的幼童。這種「空間盲區」引發了關於基準測試的討論:有觀點認為,發現 AI 表現笨拙的領域正是推動技術進步的關鍵,透過將這些難以被投機取巧的任務納入基準測試,未來的模型才能在更複雜的現實任務中展現真正的空間理解能力。
有趣的是,原版《模擬城市》的開源貢獻者 Don Hopkins 也現身討論串,分享了早在 LLM 浪潮前,研究者就曾嘗試利用碎形神經網路與強化學習(RL)來訓練 AI 玩 Micropolis。當時的研究發現,即便具備權重共享的卷積架構能讓 AI 學會局部建設,但在大規模的資源調度與需求管理上依然面臨挑戰。這顯示出城市模擬遊戲所要求的全局規劃與空間連通性,對任何形式的 AI 而言都是極具門檻的硬核挑戰。
社群中也出現了對「AI 競爭」的熱烈想像。有留言者提議將此模式擴展到《文明帝國》(Civilization)等策略遊戲,觀察不同 AI 代理人在資源爭奪與外交博弈中的表現。討論者們好奇,當雙方都是具備預測能力的 AI 時,是否會演變成一場「福爾摩斯對決福爾摩斯」的心理戰。此外,關於環境成本的爭論也未缺席,有批評者認為耗費大量運算資源讓 AI 玩得一塌糊塗是一種資源浪費,但隨即遭到反駁,支持者認為這種「玩具專案」是探索自動化邊界的重要沙盒,能幫助人類理解自動化何時該停止、何時需要人類介入。
開發者 Andrew Dunn 進一步分享了他的觀察,他利用不同模型(如 Claude 與 OpenAI)進行對決,發現 Claude Opus 在目前的架構下表現較佳。他甚至嘗試用遺傳演算法來演化「代碼市長」,透過數百代的參數突變,AI 竟然自行發現了 6:1:1 的住宅比例與特定稅率等優化策略。這種結合 LLM 的直覺判斷與演化演算法的量化優化,被視為未來 AI 代理人發展的一個有趣方向。
延伸閱讀
- MicropolisCore: 由 Don Hopkins 維護的 C++ 重寫版引擎,可編譯為 WASM 在瀏覽器或 Node.js 中運行。
- Gym-City: 將 Micropolis 包裝為 OpenAI Gym 環境的 GitHub 專案,用於強化學習研究。
- Using Fractal Neural Networks to Play SimCity 1: Sam Earle 於 2020 年發表的論文,探討利用碎形架構處理變動比例地圖的空間推理問題。
- Claude Plays Pokemon: 一個在 Twitch 上直播 Claude 玩神奇寶貝的實驗,同樣展示了 LLM 在處理遊戲空間與時序任務上的挑戰。