许丞AlphaGo的几个核心部分是 1. Policy Network: 用来预测如果是人类最好的选手,他会选择哪一个走法。这个模型是用深层神经网络实现的,其实是建立了最好棋手棋感的一部分。2. Fast rollout: 快速走子,跟1的功能一样,但是用了不同的模型,这个模型跟预测点击率的Logistic Regression模型没有区别。3. Value Network: 评估当前的棋局形势。4. Monte Carlo Tree Search: 蒙特卡洛树搜索。用来进行状态空间的快速搜索的概率模型。拿着刚刚学习的东西来对比: