Professional Documents
Culture Documents
图 示了树的一部分,给出 min (o) 和 max (x) 的交替移动,直到最终到达终止状态,根据博弈规则为终止状态分配 效用值
图 示了树的一部分,给出 min (o) 和 max (x) 的交替移动,直到最终到达终止状态,根据博弈规则为终止状态分配 效用值
图 5-8 两个国际象棋局面,只有右下角车的位置不同。在(a)中,黑方有一个马两个兵的优势,这足以取胜。
在(b)中,白方将吃掉对方的皇后,这几乎是必胜的优势
图 5-9 视野效应。黑方移动后,黑象注定难逃厄运。但是黑方可以用兵来阻挡白方的王,引诱王去吃掉兵。
这会将不可避免的象的损失推到视野之外,因此,搜索算法将牺牲兵的这一步看作“好招”
图 5-10 使用蒙特卡罗树搜索(MCTS)选择移动的算法的一次迭代,该算法使用“应用于树搜索的置信上
界”法(UCT)作为选择度量,此时已完成了 100 次迭代。(a)选择移动,沿着树一直向下,到标记为
27/35(35 次模拟中黑方赢了 27 次)的叶节点结束。(b)扩展所选节点并进行模拟,最终黑方获胜。(c)将
模拟结果沿树反向传播
图 5-11 蒙特卡罗树搜索算法。首先,初始化博弈树 tree,然后重复 Select/Expand/Simulate/Back-Propagate 的
循环,直到时间耗尽,最后返回指向模拟次数最多的节点的移动
图 5-13 西洋双陆棋局面的博弈树图解
图 5-14 在保持叶节点值排序不变的情况下,不同的叶节点赋值改变了最佳移动
图 5-16 启发式极小化极大算法可能出错的二层博弈树