Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

第5章 对抗搜索和博弈

图 5-1 井字棋的(部分)博弈树。最上面的节点是初始状态,max 先移动,在某个空位上放一个 x。我们展


示了树的一部分,给出 min(o)和 max(x)的交替移动,直到最终到达终止状态,根据博弈规则为终止状态分配
效用值

图 5-2 二层博弈树。△节点为“max 节点”,即轮到 max 移动, 节点为“min 节点”。终止节点显示 max


的效用值,其他节点标记有它们的极小化极大值。max 在根节点的最佳移动是 a1,因为它指向极小化极大值最
高的状态,而 min 的最佳响应是 b1,因为它指向极小化极大值最低的状态
图 5-3 使用极小化极大计算最优移动的算法。最优移动是指,在假定对手移动是为了使效用值最小的前提下,
使终止状态效用值最大的移动。函数 Max-Value 和 Min-Value 遍历整个博弈树直到叶节点,以确定每个状态的
倒推值以及如何移动以到达该状态

图 5-4 三人博弈的博弈树的前三层,3 个玩家为 A、B、C。每个节点都标有 3 个玩家各自的效用值。最佳移


动标示在根节点上
图 5-5 图 5-2 中博弈树的最优决策计算过程。每一步都标有每个节点可能的值的范围。(a)B 下面的第一个
叶节点值为 3。因此,作为 min 节点,B 的值最多为 3。(b)B 下面的第二个叶节点值为 12,min 将避免移动
到该节点,所以 B 的值仍然最多为 3。(c)B 下面的第三个叶节点值为 8,此时我们已经检查完了 B 的所有后
继状态,所以 B 的值就是 3。现在我们可以推断根节点的值至少是 3,因为 max 在根节点处有值为 3 的选择。
(d)C 下面的第一个叶节点值为 2。因此,作为 min 节点,C 的值最多为 2。但是我们知道 B 的值为 3,所以
max 永远不会选择 C。因此,没有必要再去检查 C 的其他后继状态。这是 剪枝的一个实例。(e)D 下面的
第一个叶节点值为 14,所以 D 的值最多为 14。这仍然高于 max 的最佳选择(即 3),所以我们需要继续探索
D 的后继状态。注意,此时根节点的所有后继都有界,所以根节点的值也最多为 14。(f)D 的第二个后继值
为 5,所以我们又需要继续探索。第三个后继值为 2,所以 D 的值就是 2。最终,max 在根节点处的决策是移
动到值为 3 的节点 B

图 5-6 剪枝的一般情况。如果对玩家来说 m 或 m'要好于 n,那么我们永远都不会在博弈中到达 n


图 5-7 搜索算法。注意,这些函数与图 5-3 中的 Minimax-Search 函数相同,除了需要维护变量 和 ,以及
在值超出边界时截断搜索

图 5-8 两个国际象棋局面,只有右下角车的位置不同。在(a)中,黑方有一个马两个兵的优势,这足以取胜。
在(b)中,白方将吃掉对方的皇后,这几乎是必胜的优势

图 5-9 视野效应。黑方移动后,黑象注定难逃厄运。但是黑方可以用兵来阻挡白方的王,引诱王去吃掉兵。
这会将不可避免的象的损失推到视野之外,因此,搜索算法将牺牲兵的这一步看作“好招”

图 5-10 使用蒙特卡罗树搜索(MCTS)选择移动的算法的一次迭代,该算法使用“应用于树搜索的置信上
界”法(UCT)作为选择度量,此时已完成了 100 次迭代。(a)选择移动,沿着树一直向下,到标记为
27/35(35 次模拟中黑方赢了 27 次)的叶节点结束。(b)扩展所选节点并进行模拟,最终黑方获胜。(c)将
模拟结果沿树反向传播
图 5-11 蒙特卡罗树搜索算法。首先,初始化博弈树 tree,然后重复 Select/Expand/Simulate/Back-Propagate 的
循环,直到时间耗尽,最后返回指向模拟次数最多的节点的移动

图 5-12 一个典型的西洋双陆棋局面。游戏的目标是把自己的所有棋子移出棋盘。黑方向 25 顺时针移动,白


方向 0 逆时针移动。一个棋子可以移动到任何位置,除非那里有多个对方棋子;如果只有一个对方棋子,对方
棋子就会被吃掉,然后必须从起点重新开始。图中所示的局面,黑棋已经掷出了 6-5,必须从(5−11, 5−10)、
(5−11, 19−24)、(5−10, 10−16)和(5−11, 11−16)这 4 种合法移动中选择,其中符号(5−11, 11−16)表示将一个棋子
从位置 5 移动到位置 11,另一个棋子从位置 11 移动到位置 16

图 5-13 西洋双陆棋局面的博弈树图解
图 5-14 在保持叶节点值排序不变的情况下,不同的叶节点赋值改变了最佳移动

图 5-15 KRK 残局必胜策略的一部分,图中为缩减后的棋盘。在初始信念状态中,黑王位于 3 种可能位置之


一。通过一系列探索移动,该策略将黑王的范围缩小到其中一种。将死策略的剩余部分留作习题

图 5-16 启发式极小化极大算法可能出错的二层博弈树

You might also like