图示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配效用值

第5章对抗搜索和博弈
图 5-1 井字棋的（部分）博弈树。最上面的节点是初始状态，max 先移动，在某个空位上放一个 x。我们展

示了树的一部分，给出 min(o)和 max(x)的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配
效用值
图 5-2 二层博弈树。△节点为“max 节点”，即轮到 max 移动，节点为“min 节点”。终止节点显示 max

的效用值，其他节点标记有它们的极小化极大值。max 在根节点的最佳移动是 a1，因为它指向极小化极大值最
高的状态，而 min 的最佳响应是 b1，因为它指向极小化极大值最低的状态
图 5-3 使用极小化极大计算最优移动的算法。最优移动是指，在假定对手移动是为了使效用值最小的前提下，
使终止状态效用值最大的移动。函数 Max-Value 和 Min-Value 遍历整个博弈树直到叶节点，以确定每个状态的
倒推值以及如何移动以到达该状态
图 5-4 三人博弈的博弈树的前三层，3 个玩家为 A、B、C。每个节点都标有 3 个玩家各自的效用值。最佳移

动标示在根节点上
图 5-5 图 5-2 中博弈树的最优决策计算过程。每一步都标有每个节点可能的值的范围。（a）B 下面的第一个
叶节点值为 3。因此，作为 min 节点，B 的值最多为 3。（b）B 下面的第二个叶节点值为 12，min 将避免移动
到该节点，所以 B 的值仍然最多为 3。（c）B 下面的第三个叶节点值为 8，此时我们已经检查完了 B 的所有后
继状态，所以 B 的值就是 3。现在我们可以推断根节点的值至少是 3，因为 max 在根节点处有值为 3 的选择。
（d）C 下面的第一个叶节点值为 2。因此，作为 min 节点，C 的值最多为 2。但是我们知道 B 的值为 3，所以
max 永远不会选择 C。因此，没有必要再去检查 C 的其他后继状态。这是剪枝的一个实例。（e）D 下面的
第一个叶节点值为 14，所以 D 的值最多为 14。这仍然高于 max 的最佳选择（即 3），所以我们需要继续探索
D 的后继状态。注意，此时根节点的所有后继都有界，所以根节点的值也最多为 14。（f）D 的第二个后继值
为 5，所以我们又需要继续探索。第三个后继值为 2，所以 D 的值就是 2。最终，max 在根节点处的决策是移
动到值为 3 的节点 B
图 5-6 剪枝的一般情况。如果对玩家来说 m 或 m'要好于 n，那么我们永远都不会在博弈中到达 n

图 5-7 搜索算法。注意，这些函数与图 5-3 中的 Minimax-Search 函数相同，除了需要维护变量和，以及
在值超出边界时截断搜索
图 5-8 两个国际象棋局面，只有右下角车的位置不同。在（a）中，黑方有一个马两个兵的优势，这足以取胜。
在（b）中，白方将吃掉对方的皇后，这几乎是必胜的优势
图 5-9 视野效应。黑方移动后，黑象注定难逃厄运。但是黑方可以用兵来阻挡白方的王，引诱王去吃掉兵。
这会将不可避免的象的损失推到视野之外，因此，搜索算法将牺牲兵的这一步看作“好招”
图 5-10 使用蒙特卡罗树搜索（MCTS）选择移动的算法的一次迭代，该算法使用“应用于树搜索的置信上
界”法（UCT）作为选择度量，此时已完成了 100 次迭代。（a）选择移动，沿着树一直向下，到标记为
27/35（35 次模拟中黑方赢了 27 次）的叶节点结束。（b）扩展所选节点并进行模拟，最终黑方获胜。（c）将
模拟结果沿树反向传播
图 5-11 蒙特卡罗树搜索算法。首先，初始化博弈树 tree，然后重复 Select/Expand/Simulate/Back-Propagate 的
循环，直到时间耗尽，最后返回指向模拟次数最多的节点的移动
图 5-12 一个典型的西洋双陆棋局面。游戏的目标是把自己的所有棋子移出棋盘。黑方向 25 顺时针移动，白

方向 0 逆时针移动。一个棋子可以移动到任何位置，除非那里有多个对方棋子；如果只有一个对方棋子，对方
棋子就会被吃掉，然后必须从起点重新开始。图中所示的局面，黑棋已经掷出了 6-5，必须从(5−11, 5−10)、
(5−11, 19−24)、(5−10, 10−16)和(5−11, 11−16)这 4 种合法移动中选择，其中符号(5−11, 11−16)表示将一个棋子
从位置 5 移动到位置 11，另一个棋子从位置 11 移动到位置 16
图 5-13 西洋双陆棋局面的博弈树图解
图 5-14 在保持叶节点值排序不变的情况下，不同的叶节点赋值改变了最佳移动
图 5-15 KRK 残局必胜策略的一部分，图中为缩减后的棋盘。在初始信念状态中，黑王位于 3 种可能位置之

一。通过一系列探索移动，该策略将黑王的范围缩小到其中一种。将死策略的剩余部分留作习题
图 5-16 启发式极小化极大算法可能出错的二层博弈树

图示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配效用值

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

图示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配效用值

Uploaded by

Copyright:

Available Formats

第5章对抗搜索和博弈

图 5-1 井字棋的（部分）博弈树。最上面的节点是初始状态，max 先移动，在某个空位上放一个 x。我们展

图 5-2 二层博弈树。△节点为“max 节点”，即轮到 max 移动，节点为“min 节点”。终止节点显示 max

图 5-4 三人博弈的博弈树的前三层，3 个玩家为 A、B、C。每个节点都标有 3 个玩家各自的效用值。最佳移

图 5-6 剪枝的一般情况。如果对玩家来说 m 或 m'要好于 n，那么我们永远都不会在博弈中到达 n

图 5-12 一个典型的西洋双陆棋局面。游戏的目标是把自己的所有棋子移出棋盘。黑方向 25 顺时针移动，白

图 5-15 KRK 残局必胜策略的一部分，图中为缩减后的棋盘。在初始信念状态中，黑王位于 3 种可能位置之

You might also like

图 示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配 效用值

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

图 示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配 效用值

Uploaded by

Copyright:

Available Formats

第5章 对抗搜索和博弈

图 5-1 井字棋的（部分）博弈树。最上面的节点是初始状态，max 先移动，在某个空位上放一个 x。我们展

图 5-2 二层博弈树。△节点为“max 节点”，即轮到 max 移动， 节点为“min 节点”。终止节点显示 max

图 5-4 三人博弈的博弈树的前三层，3 个玩家为 A、B、C。每个节点都标有 3 个玩家各自的效用值。最佳移

图 5-6 剪枝的一般情况。如果对玩家来说 m 或 m'要好于 n，那么我们永远都不会在博弈中到达 n

图 5-12 一个典型的西洋双陆棋局面。游戏的目标是把自己的所有棋子移出棋盘。黑方向 25 顺时针移动，白

图 5-15 KRK 残局必胜策略的一部分，图中为缩减后的棋盘。在初始信念状态中，黑王位于 3 种可能位置之

You might also like

图示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配效用值

图示了树的一部分，给出 min (o) 和 max (x) 的交替移动，直到最终到达终止状态，根据博弈规则为终止状态分配效用值

第5章对抗搜索和博弈

图 5-2 二层博弈树。△节点为“max 节点”，即轮到 max 移动，节点为“min 节点”。终止节点显示 max