星陈围棋的研发背景和星陈技术

研发背景

2016年3月，DeepMind团队的围棋AI程序AlphaGo 4:1战胜世界冠军李世石九段，成为人工智能历史上的里程碑事件。2017年5月，改进后的AlphaGo再次与柯洁九段对弈，以3:0获得完胜。DeepMind团队发表在《自然》杂志上的两篇重磅论文，阐释了这两次胜利背后的技术驱动力。

第一篇论文（Mastering the game of Go with deep neural networks and tree search）主要讲述了如何使用监督学习的方法，通过深度学习技术，学习人类棋谱，达到略高于人类顶尖棋手的水平。这篇论文证明了深度学习技术的优越性。战胜李世石九段的AlphaGo版本就是这篇论文的工程实现。深度学习是一种数据驱动的方法，数据的数量和质量决定了学习效果的上限。这篇论文对应的AlphaGo版本，学习的数据是人类棋谱，因此其水平受限于人类棋谱的数量和质量。

第二篇论文（Master the game of Go without human knowledge）发表于2017年，主要思想是使用强化学习方法突破人类棋谱水平和数量的瓶颈。通过自我对弈生成棋谱，再学习这些棋谱来自我提高，如此不断重复，螺旋上升，可以超越上一版的水平。2017年5月3:0击败柯洁的版本，就是第二篇论文的产物。基于强化学习技术的AlphaGo-Zero从零开始，学习40天后，达到了远超人类顶尖棋手的水平。

AlphaGo-Zero在包括围棋的完全信息博弈领域开辟了一条崭新的道路。也给了后继研究者站在巨人肩膀上持续工作，改进算法的可能空间。AlphaGo-Zero存在一些问题，使得它尚未达到完美：

首先，是水平上限的问题。AlphaGo-Zero证明了使用强化学习技术可以提高AI的棋力，但是从论文的实验数据来看这种棋力增长的速度越来越慢，后期趋向停滞。也就是说，在这一框架下，棋力的提升存在瓶颈。

其次，是资源开销问题。AlphaGo-Zero的方法自对弈消耗的计算资源空前巨大，DeepMind团队为了打造AlphaGo-Zero，使用了2000个TPU进行自对弈，总耗资过亿元。这样的算力消耗是中小型学术机构、研究团队难以承受的，需要从算法层面做出改进，降低训练使用的计算资源开销。

第三，是算法的通用性、灵活性、可迁移性的问题。AlphaGo-Zero的强化学习算法，基于单一、特定的围棋规则，从实现角度来说，就是中国规则黑贴3.75子。一旦规则改变，就需要重新训练，之前投入的大量计算资源也白白浪费了。全世界的围棋规则并没有统一，而如果使用强化学习方法为各个围棋规则分别训练围棋AI，会造成极大的浪费。

星阵技术

星阵围棋力求使用更少的训练资源，实现更具通用性、更人性化的高水平围棋智能。它在AlphaGo的基础上做了一些技术创新。星阵的主要贡献涉及到机器学习的两个重要领域，多任务学习和迁移学习。

多任务学习

多任务学习（MTL）是机器学习中一个很有前景的领域，它利用多个学习任务中包含的有用信息来帮助每个任务学习到更为准确的学习器。假定所有任务或部分任务的学习目标是相关联的，那么联合多个学习任务会比单独学习它们得到更好的性能。

与AlphaGo只使用策略网络（Policy Network）和价值网络（Value Network）不同，星阵同时学习了四个任务，另外两个是领地网络（Area Network）和子差网络（Score Network）。领地网络基于任意给定盘面，分别估算棋盘上每个交叉点最终归属黑棋或白棋的概率。子差网络基于任意给定盘面，估算最终黑方子数与白方子数的差值。

在领地网络和子差网络的帮助下，星阵对局面的判断更加全面、立体，这也让星阵学会了像人一样“点目”，而不仅仅是依靠胜率来下棋。在胜率接近的情况下，星阵会选择子差更优的下法，将领先的优势继续扩大，或者试图缩小落后的目数，咬住局面寻找机会。这一技术特点也形成了星阵“不退让围棋”的棋风。

多任务学习能够行之有效，有其深层次的原因。首先，越多任务的越多标签，意味着数据量的增加，能够显著降低过拟合的风险。其次，越多任务同时学习，越容易捕捉到同一个隐藏特征的表示，这些隐藏特征能对多个任务同时产生作用。此外，还可以帮助某些任务获取单独训练无法学习到的隐藏特征表示。

迁移学习

机器学习的模型训练是靠数据驱动的，但在很多情况下数据极端匮乏，迁移学习就是解决数据量匮乏的一种重要方法。假定源域具有充足的数据，并已经训练出足以解决源问题的模型，迁移学习利用源域中的现有模型，帮助在缺乏训练样本的目标域，训练出解决目标任务的模型。使用迁移学习有两个假设，源域与目标域的样本分布不同；目标域严重缺乏带有标签的样本。

围棋规则并没有在全世界范围内统一，不同围棋规则下的训练样本并不通用。目前围棋AI大多使用19路棋盘，中国规则黑贴3.75子，此规则下的训练样本相对充足。星阵通过引入迁移学习技术，将中国规则黑贴3.75子的模型，用较小的代价，迁移到其他规则下。迁移学习为星阵带来了极大的算法灵活性。星阵因此可以进行任意路数的对局，也可以进行任意贴目的对局，可以进行让子棋的对弈，完美适应中国规则数子法和韩日规则数目法。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。