打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
人工智能与深度学习(三)|《硅谷财经圈》
硅谷!
硅谷财经圈
硅谷创新频道, 丁丁电视推出新一代硅谷原创华语财经视频。携手财经科技界精英,轻松分析那些改变世界的企业及行业领袖。展现美国不为人知的机会和陷阱。观点独到,有趣有料。欢迎同仁加入分享。
本期节目嘉宾: 王川, 独立投资人
个人微信号 : 9935070
王川作为一名在金融界非常资深的行业专家,对行业深入研究之后,把一些前沿的资讯和非常新鲜的论点分享给大家。请点击收看视频,听王川的独到见解!
本结摘要

在人工智能的语音图像识别之后,丁丁电视和投资人王川继续深入探讨机器学习方法的进化过程。机器算的更快没有偏见和思维定势。在增强学习的问题上超越人类是必然的。时间差分学习经历回放算法的启迪来自于人脑。


增强学习的最终目的,就是在和外界环境的接触/探索/观察的过程中,不断改进策略,把长期的回报/利益最大化而已. 增强学习的理论基础, 要从运筹学里的'贪婪算法' (Greedy Algorithm) 说起. 

1
'贪婪算法' (Greedy Algorithm) 

什么是贪婪算法? 简单说,就是,任何时候的决策,都是选择当前观察的最优解,而没有整体长远的规划. 贪婪算法的优点是容易理解,简单快速.但缺点是,得到的往往是局部最优解,而不是全球最优.


在子女教育中,'不要让孩子输在起跑线上'就是一种典型的贪婪算法的思维.那些放弃自己的努力,而把希望寄托在下一代的家长们,处心积虑地寻求当前最优解. 他们把孩子推送到重点幼儿园,重点小学,重点中学,重点大学,让各种小提琴/钢琴/奥林匹克数学培训班占用孩子的业余时间,生怕孩子看上去比别人落后一点点.
但是学校教授的技能和社会需求变化往往存在严重脱节,同时大多数孩子缺乏对挫折和压力的灵活应对的训练. 当孩子从学校出来走向社会时,巨大的落差导致的各种不适应和问题就出现了.
 
郭德纲老师在一次访谈中,深刻地指出, '吃亏要趁早,一帆风顺不是好事. 从小娇生惯养,没人跟他说过什么话,六十五岁走街上谁瞪他一眼当时就猝死'. 这就是对'贪婪算法'在儿童教育上的局限性的最无情犀利的鞭挞.
《硅谷财经圈》节目组联系方式
美国电话:408-224-8883
Email:sandy@dingding.tv
2
蒙特卡洛模拟 Monte-Carlo Simulation
一个近似精致的解决思路,是所谓'蒙特卡洛模拟' (Monte-Carlo Simulation). MC 模拟优化的核心, 分两个部分:

第一是计算模拟. 当没有简单的理论模型,维度的诅咒无法逾越时,取而代之的是用计算机随机产生的参数,对可能的路径发展进行大规模模拟计算. 大量模拟之后,在各个状态节点,根据其模拟的平均值, 计算出一个接近理论值的预期价值函数.

第二是通用策略迭代 (Generalized Policy Iteration), 根据模拟出来的价值函数,使用贪婪算法修正各个状态的策略,也就是说,修正后的策略在每一步的选择,都是根据模拟的价值函数,寻求下一步的眼前利益最大化.  再根据调整的策略,回到第一步, 重新模拟,更新价值函数.
两个步骤不断循环,渐进提高,直到接近最优值.但 MC 模拟算法的一个不足是, 学习和提高 (根据价值函数,更新策略) 是要在一个模拟的轮回, 岁月蹉跎之后才可以发生,而不能够实时进行.
3
多巴胺的诱惑 Dopamine
多巴胺是一种有机化合物, 学名 4-(2-Aminoethyl)benzene-1,2-diol, 4-(2-氨基乙基)-1,2-苯二酚, 在大脑中它的作用是在神经元之间传递信号的介质.
 
多巴胺对于人脑的运作至关重要. 在普通人的印象中,多巴胺的释放是和食物,烟酒,性快感或者毒品联系在一起的.当人们获得各种快乐的奖励时,大脑释放大量多巴胺,让人们沉迷而无法自拔.所以也有人称其多巴胺为'快感化学物'(pleasure chemical): 快感/奖励, 导致多巴胺的释放.
4
时间差分学习TemporalDifferenceLearning
思想的雏型, 上世纪五十年代就被不同的学者提出. 它的核心思想, 就是在每个时间点通过计算现实和预期的差值,来微调价值函数值. 这和大脑多巴胺释放的机制,不谋而合.

它和蒙特-卡洛(MC)模拟的区别在于, MC 模拟要在一个轮回之后,再更新各个节点的价值函数. 而 TD 是在每个时间点, 根据观察到的结果不断评估,微调.
 
打个简单的比方,如果把'过河'作为一个要解决的问题, 动态规划的解决办法,就是耗费大量时间测算河水的深浅,河里的石头大小,分布,然后计算最优的过河方案. 它的缺点是耗时过长, 很可能方案算出来的时候,你的孙子都已经出生了.

MC 模拟,就好比派一大群志愿者强行渡河,有些人在渡河中会摔跤甚至淹死,但经过大量先烈前赴后继的实验后,也可以找到最佳方案. 而TD 算法,就是'摸着石头过河'.
 
当现实和预期存在差别时,有的人选择破口大骂,有的人选择视而不见/掩耳盗铃.而有的人则使用 TD 算法,根据这个差值, 实时的更新自己的世界观和策略. 使用 TD 算法的人,将会有更大的概率,在生存竞争中传递自己的基因.
 
TD 算法真正名声大噪, 要到 1992年, 在一个古老游戏上的应用.
5
西洋双陆棋 (Backgammon)
是一个有着五千年历史的古老游戏。对弈双方各有15个棋子,每次靠掷两个骰子决定移动棋子的步数,最先把棋子全部转移到对方区域者,获胜.

1992年,IBM的研究员 Gerald Tesauro 开发了一个结合时间差分学习 (TD Learning)和神经网络的算法,给它取名 TD-Gammon,  专攻双陆棋.
 
 TD-gammon 使用了一个三层神经网络,如下图,棋盘状态由198个神经元代表,为输入端。中间的隐层有40-80个神经元,最后的输出值是价值函数的估算.
TD-gammon 把隐层神经元数目增加到80,经过一百五十万次棋局的训练后,达到了和当时世界一流选手同等的水平.
 
TD-gammon 的另外一个收获是,在开局的落子上,发现了另外一种被所有前人忽略的走法,比传统走法要略优。这个新的开局走法,后被参加锦标赛的选手广泛采纳.
 
电脑发现了比人们的几百年,几千年来的定势思维更高明的策略, 这个现象之后将不断重复。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
彩票旋转矩阵算法-山水有约-搜狐空间
A*算法及其应用
人工智能算法综述
灾后如何最优化恢复?新论文:基于多智能体强化学习的韧性社区灾后恢复决策支持模型
百度硅谷人工智能实验室;欲模拟人脑算法
长期主义:做你余生中最重要的事
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服