DeepMind新算法MuZero作者解读

发布时间：2021-05-22 21:05:15 所属栏目：大数据来源：互联网

导读：策略和值的直观含义如下：策略p(s,a)表示在状态s时所有可能的动作a分布，据此可以估计最优的动作。类比人类玩家，该策略相当于快速浏览游戏时拟采取的可能动作。值v(s)估计在当前状态s下获胜的可能性，即通过对所有的未来可能性进行加权平均，确定当前玩家

策略和值的直观含义如下：

这两个网络任何一个都非常强大：只根据策略网络，能够轻易预测每一步的动作，最终得到良好结果；只依赖值网络，始终选择值最高的动作。但是，将这两个估计结合起来可以得到更好的结果。

取胜之路

与AlphaGo和AlphaZero相似，MuZero也使用蒙特卡洛树搜索方法（MCTS）汇总神经网络预测并选择适合当前环境的动作。

MCTS是一种迭代的，最佳优先的树搜索过程。最佳优先意味着搜索树的扩展依赖于搜索树的值估计。与经典方法（如广度优先或深度优先）相比，最佳优先搜索利用启发式估计（如神经网络），这使其在很大的搜索空间中也可以找到有效的解决方案。

MCTS具有三个主要阶段：模拟，扩展和反向传播。通过重复执行这些阶段，MCTS根据节点可能的动作序列逐步构建搜索树。在该树中，每个节点表示未来状态，而节点间的边缘表示从一个状态到下一个状态的动作。

在深入研究之前，首先对该搜索树及逆行介绍，包括MuZero做出的神经网络预测：

（编辑：菏泽站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

架构迭代无法一蹴而就	云数据仓库中的数据安
区块链为大数据分析提	如何使用Google Cloud