Show HN：我讓大型語言模型互相對弈魔法風雲會

Hacker News

11 天前

AI 生成摘要

一個名為mage-bench的專案，是XMage的一個分支，讓大型語言模型能在多種賽制下互相對弈魔法風雲會，模擬人類玩家的決策，且不使用簡化規則。

mage-bench.com

背景

開發者 GregorStocks 推出名為 mage-bench 的開源專案，利用大語言模型（LLM）透過 MCP 工具串接 XMage 遊戲引擎，讓 AI 在無需簡化規則的情況下，全自動進行《魔法風雲會》（Magic: The Gathering）對戰。該系統支援指揮官、標準、近代與傳奇等多種賽制，模型必須自行處理起手調度、戰鬥計算甚至政治協商等複雜決策。

社群觀點

這項實驗在 Hacker News 引發了關於 AI 應用邊界的熱烈討論。部分用戶質疑為何開發者傾向將 AI 用於遊戲等娛樂活動，而非自動化生活中枯燥的瑣事。對此，支持者認為遊戲 AI 是技術應用中最無害且純粹的領域，且具備極高的教育價值。例如，競技型玩家指出，若能開發出高水準的 AI 對手，將能幫助人類玩家在賽後進行復盤，分析特定局勢下的勝率期望值，這在存在「隱藏資訊」（如手牌）且隨機性高的卡牌遊戲中，是極具挑戰性且迷人的課題。

在技術實踐層面，社群對 LLM 的表現評價兩極。有觀察者發現，目前的模型在處理複雜賽制（如傳奇賽制）時表現欠佳，經常出現低級失誤，例如混淆卡牌費用、誤解異能，或無法理解「誰是進攻方」等基本戰略概念。開發者坦言，目前模型仍處於「七到九歲小孩」的智力水準，且運算成本高昂，單局遊戲可能耗費超過一美元。然而，透過改進提示詞工程與 MCP 工具集，例如加入「導師」或「記仇者」等性格設定，模型在決策邏輯上已有顯著進步。

關於規則理解的爭論也十分有趣。開發者並未餵入完整的規則書，而是依賴模型在訓練階段吸收的網路資料進行「滲透式學習」。雖然這會導致細節上的幻覺，但配合 XMage 強大的規則強制執行引擎，模型能在不違規的前提下完成對局。此外，社群也探討了法律風險，指出雖然規則本身不受著作權保護，但卡牌文字與美術資產仍處於灰色地帶。這也是為何開發者選擇在開源客戶端而非官方的 MTGO 或 Arena 上運行，以規避官方對自動化程式的嚴厲打擊。

最後，不少玩家看好這項技術在「測試套牌」上的潛力。傳統的單人測試（Goldfishing）難以模擬多人政治或資源交換，若能利用低成本模型進行大規模模擬，將能為玩家提供更精準的套牌穩定度數據，如法術力曲線的順暢度或威脅去除的頻率。儘管目前的 LLM 尚未達到職業選手水準，但社群普遍認為這是一個極佳的非飽和基準測試（Benchmark），能有效衡量模型在長程規劃與邏輯推理上的實力。

Show HN: I taught LLMs to play Magic: The Gathering against each other

背景

社群觀點

延伸閱讀