李世石堪堪要败：人类快要没戏了？

白露为霜注：五个月前当谷歌的计算机程序阿尔法围棋(AlphaGo)击败欧洲围棋冠军樊麾时并没有太多人在意，樊麾的段位不算高，也不是很有名。今年三月阿尔法围棋同李世石之间的人机大战却完全不同，李世石雄居世界围棋顶尖多年，名声显赫。这个在五个月前还不乍样的计算机程序真有可能撼动人类顶尖的高手？绝大多数的人都认为是不可能的，李世石更是豪言要5:0取胜。

前天晚上第一场比赛吸引的众多的观众，Youtube的录像一天之内就有100万人观看。结果大出人意外，以李世石认输结束。对此，除了震惊之外很多棋迷还不服气 - 李世石有些轻敌，或者选用不常见的开局是错误，等等。昨天晚上第二场比赛，AlphaGo持黑先行，李世石不敢大意，以较为常见的开局应对。局面一直非常胶着，黑棋气势站优，白棋拿实地稳扎稳打。评论的九段棋手Michael Redmond一遍又一遍地计算局面的得分，结论都是：很接近。突然，再算一遍后大惊失色，“黑棋领先了”。果然，不多久，李世石再次投子认输。

0:2落后，李世石堪堪要败，人类是不是快没戏了？这的确是很好的问题。再往下还有三场比赛，李世石应该还是有机会的，但这个计算机程序已经证明它是能击败人类的顶尖棋手。那么阿尔法围棋到底是何方神圣，它是怎样能进步如此神速呢？昨天，谷歌的研究团队发出一篇博文，介绍阿尔法围棋所用的算法和策略。这篇博文来得正是时候，我把它翻译成中文，让那些不服气的棋迷也死的明白。英文好的网友可以参阅原文。

击败李世石的AlphaGo动用了1202个CPU和176个GPU，拥有极为巨大的计算能力。这真的不能算是公平的比赛，就像对手端着机关枪，李世石拿的是一把菜刀。

阿尔法围棋：使用机器学习掌握古老的围棋

AlphaGo: Mastering the ancient game of Go with Machine Learning

游戏是测试与人类解决问题方法相似的更聪明，更灵活的算法的一个很好的试验场。创造能比最好的人玩游戏玩的更好的程序有着悠久的历史 – 作为1952年一个博士生的毕业设计，计算机学会了第一个经典的游戏 - 玩圈和十字架(noughts and crosses)，也称为tic-tac-toe。接着1994年计算机在跳棋(checkers)上击败人类高手。IBM的“深蓝”在1997年击败国际象棋大师Kasparov。计算机的成功并不局限于棋类，IBM的“华生”(Waston)在2011年获得Jeopardy的冠军。仅从原始象素的输入，谷歌的算法还学会了玩数十种Atari游戏。

但有一种游戏一直让人工智能的企图遭受挫败：古老的围棋。2500年前在中国发明，目前世界范围下围棋的人数超过四千万人。围棋的规则很简单：玩家轮流将黑色或白色的棋子放在棋盘上，试图捕捉对手的棋子或者围成空地而得分。孔子曾经写过这个游戏，它的美感将它提升到任何中国学者必需具备的四种技艺之一(琴棋书画)。下围棋主要靠直觉和感受，很多世纪以来一直因其精妙博大和思维的深度而让人们着迷。

但尽管规则很简单，围棋其实是极为复杂的游戏，围棋的棋局变化大到10的100次方(1以后还有一百个0)的级别 - 这个数字比整个宇宙所有原子的总和还要大。其结果是，传统的“蛮力”(brute force)人工智能方法 -构建一个所有可能的下法的搜索树的方法在围棋上无法做到。迄今为止，电脑下围棋的水平还是业余级的。专家预测至少需要10年时间电脑才有可能击败顶级专业围棋手。

我们认为这是一个难以拒绝的挑战！我们开始构建一个系统，阿尔法围棋(AlphaGo)，来克服种种障碍。AlphaGo程序关键是将围棋巨大的搜索空间减少到可以对付的规模。要做到这一点，它将最先进的树搜索(tree search)方法同两个深度神经网络相结合，每个神经网络包含很多层的数以百万计的神经元。一个神经网络称为“策略网络”(policy network)用来预测下一步的行动，并用于缩小搜索范围只考虑最有可能导致胜利的下法。另外一个神经网络叫“价值网络”用于减少搜索树的深度 – 评估在走每一步赢的可能性，一路搜索到游戏的结束。

AlphaGo的搜索算法比以前的方法更接近人的思维方法。例如，当“深蓝”下棋时，它使用比AlphaGo多数千倍的蛮力搜索。相反，AlphaGo使用一种称为蒙特卡洛树搜索(Monte-Carlo Tree Search)在它脑子中一遍又一遍地把剩下的棋下完。同以前的蒙特卡罗程序不同的是，AlphaGo使用深层神经网络来指导其搜索。在每个模拟游戏中，策略网络建议最聪明的下法，而价值网络则精确地评估下完这步后局面的优劣。最后，AlphaGo选择在模拟中最成功的下法。

我们首先使用从人类下的棋中的3000万步招法来训练策略网络，直到它可以以57%的准确律预测出人类的招法（AlphaGo前之前的纪录是44％）。但是，我们的目标是击败最好的人类棋手，而不仅仅是模仿他们。要做到这一点，AlphaGo必须学会发现新的策略。通过在神经网络之间下数以千记的棋，并在一种被称为“强化学习”一个试错的过程中不断改进。这种做法导致了更好的策略网络，这个网络是如此强大的，即使仅仅是没有树搜索的原始的神经网络就可以打败最先进的建立庞大的搜索树的程序。

这些策略网络再用来训练价值网络，同样是通过自我下棋来学习。这些价值网络可以评估任何围棋的局面，并计算出最后的优胜者 – 这个任务非常的困难一直被认为是不可能完成的问题。

当然，所有这些都需要巨大的计算能力，所以我们大量使用谷歌云平台(Google Cloud Platform)，这使得做人工智能和机器学习的研究人员能按照需求弹性的运用计算，存储和网络的能力。此外，用来数量计算的数据流图的新的开源库，如TensorFlow，使研究人员能够高效地部署多个处理器(CPU)或图像处理器(GPU)来满足深度学习算法的计算需要。

AlphaGo似乎做好了准备迎接更大的挑战。所以我们邀请了三次欧洲围棋冠军樊麾 – 一个从12岁时起就投身围棋的一个精英的职业棋手，到我们在伦敦办公室进行挑战赛。这场比赛在去年10月5-9日之间进行。AlphaGo以5:0取胜 – 这是计算机程序第一次击败一个职业围棋手。

AlphaGo的下一个挑战将是在过去十年中一直处在世界颠峰的李世石。比赛在今年三月于韩国首尔举行。李世石很高兴接受挑战说：“我很荣幸地下这场人机大战，但我相信我能取胜。”这将被证明是一场引人入胜的比赛！

我们很高兴已经学会了围棋，从而实现人工智能的重大挑战之一。然而，这一切对我们来说最有意义的是AlphaGo不仅仅手工编写的规则，建立了一个“专家系统”，而是使用通用的机器学习的技术，通过观看和自我下棋不断完善自身。虽然游戏是开发和快速高效地测试人工智能算法的完美平台，最终我们希望将这些技术应用于重要的现实问题。因为我们所用的方法是通用的，我们的希望是，有一天，他们可以扩展到帮助我们解决一些社会的最棘手和最紧迫的问题，从气候建模到复杂的疾病分析。

英文原文：

AlphaGo: Mastering the ancient game of Go with Machine Learning

网络直播人机大战第二局 (Lee Se-dol vs AlphaGo)

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。