打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案


来源:Shane Moon的Slideshare主页

编译:梁悦

最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间


卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理


在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中,李世石执黑负,无缘两连胜。至此,人机大战五番棋全部结束,李世石1-4输掉对决,无缘100万美元赢棋奖金。


为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon(个人主页:http://shanemoon.com/)做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。



AlphaGo是如何工作的

演讲人:Shane Moon



2015年10月,AlphaGo与欧洲围棋冠军樊麾二段对弈



2016年3月9日-15日,AlphaGo与世界冠军李世乭九段展开对弈




电脑围棋人工智能



电脑围棋人工智能:定义

我们可以把棋盘想象成一个矩阵



当给出s,电脑围棋运算出最优移动a,得到s'



电脑围棋人工智能:一个可行的概念?

假设它模拟所有可能的棋盘落子位置呢?




进行这样的模拟直到游戏结束,然后报告输赢结果



这是不可能的,据说所有可能的棋盘排布种类总数超过了宇宙中原子的数量



关键在于:缩减搜索空间



缩减搜索空间的第一种方法:减少可选择的着法(横向缩减)



从搜索出的着法候选中把这些提前剔除



缩减搜索空间的第二种方法:提前评估落子位置(纵向缩减)



假设这里有一个函数可以计算V,即s的盘面形势评估



缩减搜索空间的两种方式:减少可选择的着法(横向),提前评估落子位置(纵向)



减少可选择的着法

得到P(下一次落子|现在的位置)


减少可选择的着法:模仿专业高手的着法(在指导下学习)


建立棋盘的预测模型



将预测模型模拟为矩阵进行运算



这个深度学习过程要经过13层“CNN”


CNN即卷积神经网络,是一种强大的图像识别任务处理模型,它将输入的图像通过卷积层抽象化



它们利用卷积神经网络模型去评估对局形势



围棋:胜利的关键在于抽象能力

卷积神经网络:抽象是其特长



模仿专业高手着法的模型



减少可选择的着法:通过自我对弈来提高(巩固学习)


两个专业高手着法模仿模型进行对弈




输赢两种结局






更新模型,不断进行新旧模型之间的对弈,最后一个版本的模型和初始版本对弈已经有了八成赢面



盘面形势评估



使用两个模型:上文最新版本的模仿模型与价值预测模型(复盘)



缩减搜索空间:横向上减少可选择的着法(策略网络),纵向上进行盘面形势评估(价值网络)



前瞻:蒙特卡洛树形研究模型



结果:AlphaGo不同成分的组合所呈现的表现




李世乭九段与AlphaGo的能量功耗对比


据估测,AlphaGo的水准在业余五段左右


将CPU/GPU资源运用到极致?



AlphaGo每天都学习数以百万计的对局


如果AlphaGo学习了李世乭的策略会怎样?谷歌表示他们不会将李世乭的比赛数据用于AlphaGo的训练数据,即使它真的学习了,仅仅与李世乭对弈几盘就修改在海量数据下训练过的模型也是很难的


AlphaGo的弱点是什么?留待研究




参考文献


延伸阅读

MORE



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
卡内基梅隆大学博士讲解AlphaGo如何工作的[PPT版]
AlphaGo 教学: 探索围棋创新思路
论强化学习的根本缺陷
两场比赛,AlphaGo表现出了哪些计算和智能
非得从零开始学习?扒一扒强化学习的致命缺陷
人工智能助力抗疫,魔力背后的秘密是什么?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服