打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
DeepMind的MuZero是有史以来最重要的深度学习系统

  MuZero采用独特的方法来解决深度学习模型中的计划问题。

  

  "我已经看到了人工智能(AI)的未来,它被称为MuZero"。这些是我的一位导师在他阅读DeepMind在2021年发布的有关MuZero的第一篇初步研究论文时使用的词语。一个单一的深度学习模型可以掌握Atary,Go,Chess或Shogi等游戏,甚至不知道规则。这似乎是科幻书中的东西。好吧,这就是DeepMind在几周前发表在《自然》杂志上的一篇新研究论文中所描述的MuZero的本质。

  从概念上讲,MuyZero提出了针对深度学习领域最艰巨挑战之一的解决方案:规划。从机器学习的早期开始,研究人员就研究了既可以在给定环境下有效学习模型,又可以规划最佳操作方案的技术。考虑一下自动驾驶汽车或股市情况,在这种情况下环境规则不断变化。通常,这些环境给深度学习模型的规划带来了极大的挑战。在较高级别上,与深度神经网络规划有关的大多数工作都属于以下类别:

  1)前瞻性搜索系统:这种类型的系统依赖于环境知识进行规划。AlphaZero是该组模型中的突出示例。但是,将前瞻搜索技术应用于杂乱无章的环境时,仍然很困难。

  2)基于模型的系统:这种类型的系统尝试学习环境的表示形式以便进行规划。诸如Agent57之类的系统已经在该领域取得了成功,但实施起来可能会非常昂贵。

  MuZero结合了两种方法的思想,但是使用了非常简单的原理。MuZero并没有尝试对整个环境进行建模,而是只专注于可以推动最有用的规划决策的最重要方面。具体来说,MuZero将问题分解为对计划至关重要的三个要素:

  1)价值:当前头寸好吗?

  2)政策:最好采取哪种行动?

  3)奖励:上一个动作的效果如何?

  例如,使用游戏中的给定位置,MuZero使用表示函数H将观察结果映射到模型使用的输入嵌入。计划的动作由动态函数G和预测函数F描述。

  

  收集的经验用于训练神经网络。重要的是要注意,体验既包括观察和奖励,也包括搜索结果。

  

  DeepMind使用这个简单的想法就可以将MuZero演变成一个模型,该模型可以在从国际象棋到Atari的复杂计划问题中实现超人的性能。在所有基准测试中,MuZero均优于最新的强化学习算法。

  在未来的几年中,诸如MuZero之类的方法对深度学习计划的影响可能会很重要。当然,我们应该关注DeepMind在该领域下一步要做的事情。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
通用版AlphaGo登《Nature》!最强AI棋手,不懂规则也能精通游戏
深度强化学习走入「死胡同」,继续死磕电子游戏还是另辟蹊径?
Google DeepMind 团队发布新算法,下一个被 AI 虐哭的是谁?
变革尚未成功:深度强化学习研究的短期悲观与长期乐观
DeepMind全能AI:完全自学规则,攻破多款游戏,表现碾压人类!
下一代AlphaGo问世:数十款游戏全面碾压 裸考也能拿满分
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服