打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
李世石连输阿尔法??五盘,气急败坏地砸开了电脑,发现柯洁趴在机箱里

李世石连输五盘,气急败坏地砸开了电脑,发现柯洁趴在机箱里。


这个笑话指出了一部分事实,趴在电脑里的不是柯杰,而是过去的围棋大师们。


2016 年 1 月 28 日,Google Deepmind 在 Nature 上发文宣布其人工智能围棋系统 AlphaGo 历史性的战胜人类的职业围棋选手,定在 2016 年 3 月份 AlphaGo 对阵李世石的比赛更是吸引了全人类的目光。AlphaGo 系统是基于人工智能中的深度学习算法的,我恰好也做了一些这方面的工作,觉得可以介绍一些这方面的情况。



图像识别系统的深度学习算法

去年(2015 年)2 月 15 日,有一条很重要但是公众不怎么注意的消息,微软公布了一篇关于图像识别的研究论文,在一项图像识别的基准测试中,电脑系统识别能力已经超越了人类。人类在归类数据库 ImageNet 中的图像时错误率为 5.1%,而微软研究小组的这个深度学习系统可以达到 4.94% 的错误率。在去年年底的比赛中,微软研究员何恺明、张祥雨、任少卿和孙剑组成的团队又获得第一,把错误率降到了 3.57%。这个在图像识别系统中取得突破的算法就是深度学习算法。深度学习算法是普通神经网络的更多层的深化。

神经网络

lenet5 深度神经网络用于手写数字识别

神经网络由单个的神经元组成


这个「神经元」是一个以 x1、x2、x3 及截距 1 为输入值的运算单元,其输出为 h, 输入输出为非线性关系。微软去年底的突破是因为发展了一种深达 152 层的网络。



AlphaGo 系统如何学习下棋

AlphaGo 系统充分利用了图像识别的成果。它把 19 * 19 的棋盘当做 19 * 19 像素的图像来处理。 Google 团队设计了一个 13 层的类似图像识别的深度学习网络。利用 KGS Go 服务器上的高手对弈样本来学习。这样通过学习后生成了一个策略网络,这个策略网络无需搜索就达到了 57% 的准确率。形成策略网络后,系统使用这个网络自我下棋,并使用胜利一方的棋局强化学习。通过这样的自我强化学习,系统的准确率达到了 80%。无需任何额外的搜索,仅仅使用强化学习过的策略网络和另外一个使用蒙特卡洛的软件 PACHI 比赛时,胜率为 85%。


使用和策略网络差不多的方法,Google 还训练了一个评价网络来评估当前的整体局势。这个评价网络用来给当前的棋局打分。同样通过强化学习后,这个打分的误差小于 0.24.


最后 AlphaGo 系统使用策略和评价网络来搜索最好的棋子落点。使用这两个网络可以极大减少搜索的范围,但是使用这两个网络使得单步计算的时间比蒙特卡洛方法要长,综合下来 AlphaGo 系统还是需要强大的计算能力。

价值网络的一个例子

(轮到黑棋下,越蓝代表落点的胜率越高,数字代表胜率。)

对应策略网络的一个例子

(轮到黑棋下,数字代表建议落子在此的概率。)



AlphaGo 和李世石谁会赢?

李世石观看过 AlphaGo 和樊晖的棋局后,认为 AlphaGo 和自己有让两子的差距。不过和李世石比赛的 AlphaGo 应该有了很大的进步。基于网络的同质性,图像识别方面的进步肯定会反应到围棋算法上来,我想得到的第一个进步就是原来的 13 层网络还可以加深,比如加深到 26 层。这样网络的初始胜率估计会提高几个百分点。第二个进步是针对李世石的棋谱进行强化训练,这种方法对应于在图像识别时就是更多训练难以识别的图像。这样改进后,再考虑到人有时候会犯错,我认为 AlphaGo 有可能赢上一盘。(注:到北京时间 3 月 12 日,AlphaGo 赢了三盘了……



人工智能和人类智能的区别

那么人工智能究竟发展到什么程度了?是不是战胜围棋高手就是达到了成人的水平?其实深度神经网络用的还是大数据的方法。比如要训练一个认识猫的网络,那么你需要成千上万张各种各样猫的图片来训练,告诉网络这样的图是猫。可是一个两岁的小孩,只要见过一只猫,就能识别出他以前根本没看见过的动物是一只猫。所以虽然深度学习的基础是模仿了人类脑神经的工作方式,但是实际上两者的工作方式应该是截然不同的,人工智能和人类的智能还无法直接比较。



人工智能的未来

深度学习的概念由 Hinton 等人于 2006 年提出。近几年来在图像和视频理解、语音识别、自然语言处理等方面都取得了很好的进展。令我印象最深的是自动驾驶方面的应用。Google、百度等互联网巨头都投入巨大,并且已经在实验中取得了很好的效果,已经在逐步商业化的过程中,未来 5 年内应该会有可行的自动驾驶汽车上市。蒸汽机、汽油机、电动机把人类从繁重的体力工作中解脱出来,而人工智能将会把人类从低端的脑力劳动中解放出来,使人类的生活上一大台阶,乐观一点的话,五年后工业机器人大批应用,十年后各种家庭智能机器人会像电冰箱、洗衣机、空调等电器一样成为家庭必配。


一个问题

如果去掉 AlphaGo 的数据库,单凭游戏规则的学习,AlphaGo 还能胜么?如果凭着数据库里的对局资料和强大的运算能力,以时间换取胜利,和深蓝又有什么区别?


作者:pattern,授权丁香园发布
深度学习算法专家,西西河站友

投稿 wangyc@dxy.com

回复「投稿」查看具体规则

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
人工智能站上风口,哪些股可关注
“阿尔法狗”的野心:颤抖吧金融狗们
回顾2016年最受关注的深度学习发展历程
人工智能赢了李世石,听听国内的AI专家们怎么说
10万多次学习才造就了阿尔法狗,战胜李世石它靠的是百分百的血汗
AlphaGo人工智能创始人演讲PPT(重磅)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服