人工智能与深度学习（三）|《硅谷财经圈》

扫码看硅谷！

硅谷财经圈

硅谷创新频道，丁丁电视推出新一代硅谷原创华语财经视频。携手财经科技界精英，轻松分析那些改变世界的企业及行业领袖。展现美国不为人知的机会和陷阱。观点独到，有趣有料。欢迎同仁加入分享。

本期节目嘉宾：王川, 独立投资人

个人微信号： 9935070

王川作为一名在金融界非常资深的行业专家，对行业深入研究之后，把一些前沿的资讯和非常新鲜的论点分享给大家。请点击收看视频，听王川的独到见解！

本结摘要

在人工智能的语音图像识别之后，丁丁电视和投资人王川继续深入探讨机器学习方法的进化过程。机器算的更快没有偏见和思维定势。在增强学习的问题上超越人类是必然的。时间差分学习经历回放算法的启迪来自于人脑。

增强学习的最终目的,就是在和外界环境的接触/探索/观察的过程中,不断改进策略,把长期的回报/利益最大化而已. 增强学习的理论基础, 要从运筹学里的'贪婪算法' (Greedy Algorithm) 说起.

'贪婪算法' (Greedy Algorithm)

什么是贪婪算法? 简单说,就是,任何时候的决策,都是选择当前观察的最优解,而没有整体长远的规划. 贪婪算法的优点是容易理解,简单快速.但缺点是,得到的往往是局部最优解,而不是全球最优.

在子女教育中,'不要让孩子输在起跑线上'就是一种典型的贪婪算法的思维.那些放弃自己的努力,而把希望寄托在下一代的家长们,处心积虑地寻求当前最优解. 他们把孩子推送到重点幼儿园,重点小学,重点中学,重点大学,让各种小提琴/钢琴/奥林匹克数学培训班占用孩子的业余时间,生怕孩子看上去比别人落后一点点.

但是学校教授的技能和社会需求变化往往存在严重脱节,同时大多数孩子缺乏对挫折和压力的灵活应对的训练. 当孩子从学校出来走向社会时,巨大的落差导致的各种不适应和问题就出现了.

郭德纲老师在一次访谈中,深刻地指出, '吃亏要趁早,一帆风顺不是好事. 从小娇生惯养,没人跟他说过什么话,六十五岁走街上谁瞪他一眼当时就猝死'. 这就是对'贪婪算法'在儿童教育上的局限性的最无情犀利的鞭挞.

《硅谷财经圈》节目组联系方式

美国电话：408-224-8883

Email：sandy@dingding.tv

蒙特卡洛模拟 Monte-Carlo Simulation

一个近似精致的解决思路,是所谓'蒙特卡洛模拟' (Monte-Carlo Simulation). MC 模拟优化的核心, 分两个部分:

第一是计算模拟. 当没有简单的理论模型,维度的诅咒无法逾越时,取而代之的是用计算机随机产生的参数,对可能的路径发展进行大规模模拟计算. 大量模拟之后,在各个状态节点,根据其模拟的平均值, 计算出一个接近理论值的预期价值函数.

第二是通用策略迭代 (Generalized Policy Iteration), 根据模拟出来的价值函数,使用贪婪算法修正各个状态的策略,也就是说,修正后的策略在每一步的选择,都是根据模拟的价值函数,寻求下一步的眼前利益最大化. 再根据调整的策略,回到第一步, 重新模拟,更新价值函数.

两个步骤不断循环,渐进提高,直到接近最优值.但 MC 模拟算法的一个不足是, 学习和提高 (根据价值函数,更新策略) 是要在一个模拟的轮回, 岁月蹉跎之后才可以发生,而不能够实时进行.

多巴胺的诱惑 Dopamine

多巴胺是一种有机化合物, 学名 4-(2-Aminoethyl)benzene-1,2-diol, 4-(2-氨基乙基)-1,2-苯二酚, 在大脑中它的作用是在神经元之间传递信号的介质.

多巴胺对于人脑的运作至关重要. 在普通人的印象中,多巴胺的释放是和食物,烟酒,性快感或者毒品联系在一起的.当人们获得各种快乐的奖励时,大脑释放大量多巴胺,让人们沉迷而无法自拔.所以也有人称其多巴胺为'快感化学物'(pleasure chemical): 快感/奖励, 导致多巴胺的释放.

时间差分学习TemporalDifferenceLearning

思想的雏型, 上世纪五十年代就被不同的学者提出. 它的核心思想, 就是在每个时间点通过计算现实和预期的差值,来微调价值函数值. 这和大脑多巴胺释放的机制,不谋而合.

它和蒙特-卡洛(MC)模拟的区别在于, MC 模拟要在一个轮回之后,再更新各个节点的价值函数. 而 TD 是在每个时间点, 根据观察到的结果不断评估,微调.

打个简单的比方,如果把'过河'作为一个要解决的问题, 动态规划的解决办法,就是耗费大量时间测算河水的深浅,河里的石头大小,分布,然后计算最优的过河方案. 它的缺点是耗时过长, 很可能方案算出来的时候,你的孙子都已经出生了.

MC 模拟,就好比派一大群志愿者强行渡河,有些人在渡河中会摔跤甚至淹死,但经过大量先烈前赴后继的实验后,也可以找到最佳方案. 而TD 算法,就是'摸着石头过河'.

当现实和预期存在差别时,有的人选择破口大骂,有的人选择视而不见/掩耳盗铃.而有的人则使用 TD 算法,根据这个差值, 实时的更新自己的世界观和策略. 使用 TD 算法的人,将会有更大的概率,在生存竞争中传递自己的基因.

TD 算法真正名声大噪, 要到 1992年, 在一个古老游戏上的应用.

西洋双陆棋（Backgammon)

是一个有着五千年历史的古老游戏。对弈双方各有15个棋子，每次靠掷两个骰子决定移动棋子的步数，最先把棋子全部转移到对方区域者，获胜.

1992年，IBM的研究员 Gerald Tesauro 开发了一个结合时间差分学习（TD Learning）和神经网络的算法，给它取名 TD-Gammon, 专攻双陆棋.

TD-gammon 使用了一个三层神经网络，如下图，棋盘状态由198个神经元代表，为输入端。中间的隐层有40-80个神经元，最后的输出值是价值函数的估算.

TD-gammon 把隐层神经元数目增加到80，经过一百五十万次棋局的训练后，达到了和当时世界一流选手同等的水平.

TD-gammon 的另外一个收获是，在开局的落子上，发现了另外一种被所有前人忽略的走法，比传统走法要略优。这个新的开局走法，后被参加锦标赛的选手广泛采纳.

电脑发现了比人们的几百年，几千年来的定势思维更高明的策略, 这个现象之后将不断重复。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。