Canvas Report Template

鬥地主 AI 評估報告

這份報告聚焦比較線上棋牌場景中常見的幾種 AI 路線：DouZero、RuleBot、LLM，以及更進階的強化學習方案，並從強度、延遲、成本、穩定性與實際營運可控性，整理出較適合目前專案的落地建議。

推薦主 AI DouZero WP

穩定 fallback RuleBot

延伸用途 LLM 用於教學與解說

一句話結論

如果目標是做一個線上可用、反應穩定、成本合理的鬥地主 AI，最佳主線仍然是 DouZero 作為核心出牌引擎， RuleBot 作為斷線或失敗 fallback，而 LLM 更適合做教學、陪玩、敘述與解說層。

1. DouZero WP

勝率導向、穩定度高，最適合作為正式主出牌 AI。

2. RuleBot

強度有限，但非常穩，是最佳保底與託管策略。

3. LLM

適合做互動與解說，不建議直接擔任主出牌 AI。

主要 AI 路線

Six-Card View

♠

DouZero WP

勝率導向 / 線上預設主 AI

以勝率為訓練目標，風格穩、決策一致，是線上實務上最適合作為正式主 AI 的方案。

強度

高

延遲 / 成本

中

可控性

高

優勢

穩、可預期
勝率均衡

注意

偶爾偏保守

♥

DouZero ADP

期望收益導向 / 高壓侵略型

以平均分差為訓練目標，更敢交換風險與節奏，適合進階模式或對玩家造成壓力的場景。

強度

高

延遲 / 成本

中

可控性

中高

優勢

體感強
期望收益佳

注意

波動較大

♦

DouZero SL

監督式預訓練 / 穩定基線

用監督學習而來的版本，不一定最強，但常是最穩定的起點，適合做基線、驗證與保底。

強度

中到高

延遲 / 成本

中

可控性

高

優勢

穩定
易維運

注意

強度上限有限

🛡

RuleBot

規則引擎 / 保底 / 託管

純規則引擎，不靠模型推論。強度有限，但延遲、成本、可控性都是最高的，是線上產品最重要的安全網。

強度

低到中

延遲 / 成本

最低

可控性

最高

優勢

必達、可控
fallback 首選

注意

強度天花板低

☁

LLM / Qwen 類

大模型 / 解說 / 陪玩 / 教學

通用大模型不適合直接當主出牌引擎，但很適合做解說、提示、教學與陪玩人格，增強體驗而非決策。

強度

不適主出牌

延遲 / 成本

高

可控性

低到中

優勢

會「說人話」
體驗加分

注意

慢、貴、易幻覺

⚙

進階 RL / Distillation

研究路線 / 長期升級

完整自訓強化學習、模型 Distillation，或更進階的 RL 路線，理論潛力最高，但成本與工程複雜度也最大。

強度

潛力高

延遲 / 成本

最高

可控性

中

優勢

天花板最高

注意

成本 / 工程量大

線上棋牌實務比較

Operations View

📊 深度比較

AI 路線比較表

同一張表把 6 種路線的關鍵維度並排對照。

方案	強度	延遲	部署成本	可控性
RuleBot	低到中	最低	最高	fallback、離線模式、簡易陪打
DouZero WP	高	中	高	正式出牌 AI、主戰模式
DouZero ADP	高	中	中高	高壓風格、進階難度、競技向
DouZero SL	中到高	中	高	基線模型、驗證、穩定保底
LLM / Qwen	不適合主出牌	高	低到中	對話、教學、解說、角色互動
進階 RL / Distillation	潛力高	最高	中	長期自研、差異化升級

🎯 核心結論

誰當主、誰當保底

線上棋牌最重要的不是「理論上最強」，而是「穩定、可控、可 fallback、可維運」。在這個框架下：

主出牌：DouZero，特別是 WP，速度與強度平衡。
失敗保底：RuleBot，模型異常時無縫接手。
體驗加分：LLM，做解說、教學、陪玩，不直接當決策核心。

一句話：先確保穩定性與保底，再追求強度天花板。

💎 線上棋牌重點

真正影響產品品質的項目

AI health 是否可持續連線。
失敗時是否能立即 fallback 到 RuleBot。
託管模式能否無縫接手。
模型路徑、tunnel、快取是否容易維運。
是否能做 AI 模式切換與後續監控。

對目前專案的建議

Recommendation

🚀 落地建議

對目前專案的執行路徑

短期 → 中期 → 長期，由穩定性疊加強度與體驗。

📌 短期

主模式固定用 DouZero WP。
保留 RuleBot 作為 health 失敗 fallback。
保留 SL 作為本地驗證與穩定基線。

🛠 中期

把 WP / ADP / SL 做成可切換模式。
補託管邏輯與 AI 狀態說明。
記錄對局統計與基本勝率。

✨ 長期

引入 LLM 做解說、教學、陪玩角色。
評估更進階的 Distillation 或完整自訓路線。
視營運需要加入 AI 強度分層。

📣 一句話方案

出牌用 DouZero，保底用 RuleBot，體驗增強用 LLM。