newsence
來源篩選

Show HN: I taught LLMs to play Magic: The Gathering against each other

Hacker News

A project called mage-bench, a fork of XMage, allows large language models to play Magic: The Gathering against each other across various formats, simulating human player decisions without simplified rules.

newsence

Show HN:我讓大型語言模型互相對弈魔法風雲會

Hacker News
11 天前

AI 生成摘要

一個名為mage-bench的專案,是XMage的一個分支,讓大型語言模型能在多種賽制下互相對弈魔法風雲會,模擬人類玩家的決策,且不使用簡化規則。

背景

開發者 GregorStocks 推出名為 mage-bench 的開源專案,利用大語言模型(LLM)透過 MCP 工具串接 XMage 遊戲引擎,讓 AI 在無需簡化規則的情況下,全自動進行《魔法風雲會》(Magic: The Gathering)對戰。該系統支援指揮官、標準、近代與傳奇等多種賽制,模型必須自行處理起手調度、戰鬥計算甚至政治協商等複雜決策。

社群觀點

這項實驗在 Hacker News 引發了關於 AI 應用邊界的熱烈討論。部分用戶質疑為何開發者傾向將 AI 用於遊戲等娛樂活動,而非自動化生活中枯燥的瑣事。對此,支持者認為遊戲 AI 是技術應用中最無害且純粹的領域,且具備極高的教育價值。例如,競技型玩家指出,若能開發出高水準的 AI 對手,將能幫助人類玩家在賽後進行復盤,分析特定局勢下的勝率期望值,這在存在「隱藏資訊」(如手牌)且隨機性高的卡牌遊戲中,是極具挑戰性且迷人的課題。

在技術實踐層面,社群對 LLM 的表現評價兩極。有觀察者發現,目前的模型在處理複雜賽制(如傳奇賽制)時表現欠佳,經常出現低級失誤,例如混淆卡牌費用、誤解異能,或無法理解「誰是進攻方」等基本戰略概念。開發者坦言,目前模型仍處於「七到九歲小孩」的智力水準,且運算成本高昂,單局遊戲可能耗費超過一美元。然而,透過改進提示詞工程與 MCP 工具集,例如加入「導師」或「記仇者」等性格設定,模型在決策邏輯上已有顯著進步。

關於規則理解的爭論也十分有趣。開發者並未餵入完整的規則書,而是依賴模型在訓練階段吸收的網路資料進行「滲透式學習」。雖然這會導致細節上的幻覺,但配合 XMage 強大的規則強制執行引擎,模型能在不違規的前提下完成對局。此外,社群也探討了法律風險,指出雖然規則本身不受著作權保護,但卡牌文字與美術資產仍處於灰色地帶。這也是為何開發者選擇在開源客戶端而非官方的 MTGO 或 Arena 上運行,以規避官方對自動化程式的嚴厲打擊。

最後,不少玩家看好這項技術在「測試套牌」上的潛力。傳統的單人測試(Goldfishing)難以模擬多人政治或資源交換,若能利用低成本模型進行大規模模擬,將能為玩家提供更精準的套牌穩定度數據,如法術力曲線的順暢度或威脅去除的頻率。儘管目前的 LLM 尚未達到職業選手水準,但社群普遍認為這是一個極佳的非飽和基準測試(Benchmark),能有效衡量模型在長程規劃與邏輯推理上的實力。

延伸閱讀

  • mage-bench GitHub 倉庫:專案原始碼與 MCP 工具實作。
  • XMage:本專案所使用的開源《魔法風雲會》規則引擎與遊戲伺服器。
  • Glyphbox:針對 NetHack 遊戲開發的 AI 代理人測試框架。
  • Premodern:社群自發維護的懷舊賽制,討論中提到的另一種回歸遊戲初衷的玩法。
  • Cockatrice:另一款受討論區推薦的開源虛擬桌面客戶端,強調手動操作而非自動規則執行。