DeepMind的MuZero是有史以来最重要的深度学习系统

　　MuZero采用独特的方法来解决深度学习模型中的计划问题。

　　"我已经看到了人工智能（AI）的未来，它被称为MuZero"。这些是我的一位导师在他阅读DeepMind在2021年发布的有关MuZero的第一篇初步研究论文时使用的词语。一个单一的深度学习模型可以掌握Atary，Go，Chess或Shogi等游戏，甚至不知道规则。这似乎是科幻书中的东西。好吧，这就是DeepMind在几周前发表在《自然》杂志上的一篇新研究论文中所描述的MuZero的本质。

　　从概念上讲，MuyZero提出了针对深度学习领域最艰巨挑战之一的解决方案：规划。从机器学习的早期开始，研究人员就研究了既可以在给定环境下有效学习模型，又可以规划最佳操作方案的技术。考虑一下自动驾驶汽车或股市情况，在这种情况下环境规则不断变化。通常，这些环境给深度学习模型的规划带来了极大的挑战。在较高级别上，与深度神经网络规划有关的大多数工作都属于以下类别：

　　1）前瞻性搜索系统：这种类型的系统依赖于环境知识进行规划。AlphaZero是该组模型中的突出示例。但是，将前瞻搜索技术应用于杂乱无章的环境时，仍然很困难。

　　2）基于模型的系统：这种类型的系统尝试学习环境的表示形式以便进行规划。诸如Agent57之类的系统已经在该领域取得了成功，但实施起来可能会非常昂贵。

　　MuZero结合了两种方法的思想，但是使用了非常简单的原理。MuZero并没有尝试对整个环境进行建模，而是只专注于可以推动最有用的规划决策的最重要方面。具体来说，MuZero将问题分解为对计划至关重要的三个要素：

　　1）价值：当前头寸好吗？

　　2）政策：最好采取哪种行动？

　　3）奖励：上一个动作的效果如何？

　　例如，使用游戏中的给定位置，MuZero使用表示函数H将观察结果映射到模型使用的输入嵌入。计划的动作由动态函数G和预测函数F描述。

　　收集的经验用于训练神经网络。重要的是要注意，体验既包括观察和奖励，也包括搜索结果。

　　DeepMind使用这个简单的想法就可以将MuZero演变成一个模型，该模型可以在从国际象棋到Atari的复杂计划问题中实现超人的性能。在所有基准测试中，MuZero均优于最新的强化学习算法。

　　在未来的几年中，诸如MuZero之类的方法对深度学习计划的影响可能会很重要。当然，我们应该关注DeepMind在该领域下一步要做的事情。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。