深扒Yann LeCun清华演讲提到的深度学习与人工智能技术

　　本文长度为3000字，建议阅读7分钟

　　本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。

　　姚先生引言

　　非常荣幸来给大家介绍今天的演讲嘉宾！大家一定还记得去年的一个大事件——AlphaGo在围棋上战胜了人类冠军。围棋被认为是人类智力竞赛的王冠，而AlphaGo背后的最重要的技术就是深度学习。今天的演讲嘉宾就是深度学习方面的专家Lecun。

　　Lecun现任Facebook AI研究院院长，同时他也是美国纽约大学的终身教授。他的研究兴趣包括机器学习、计算机视觉、移动机器人以及计算神经学等。他因著名且影响深远的卷积神经网络（CNN）相关的工作而被人称为CNN之父。

　　Lecun演讲梗概

　　Lecun演讲内容跨度数十载，从最早追溯到1957年神经科学的监督学习谈起并对神经网络的训练做了一个基本的介绍。接着Lecun重点讲解了他的成名作——卷积神经网络（CNN），还给大家展示了录制于1993年的珍贵视频——年轻的Lecun在一台486 PC上编写的光学字符识别系统。

　　不知那时候还在攻读博士的Lecun是否想到他的研究成果在随后的二十年给整个世界带来的巨大影响和翻天覆地的变化。然而，在当时的环境下，并不是所有的人都相信神经网络技术，更多的人倾向于一些有理论保障的机器学习方法，比如kernel machine等。

　　Lecun给大家展示了他在1995年所见证的两位机器学习前辈Jackel和Vapnik（当时他们都在贝尔实验室，Jackel是Vapnik的上司）的两个有趣赌局：第一个赌局中，Jackel声称最迟到2000年我们就会有一个关于大的神经网络为什么有效的理论解释，当然随后的历史证明他输了；第二个赌局中，Vapnik声称最迟到2000年没有人将会继续使用1995年的这些神经网络结构（意思是大家都会转而使用支持向量机SVM，Vapnik是SVM的发明人之一），结果Vapnik也输了。

　　不仅在2000年，大家依然在用，直到今天，在结合了大数据与强大计算能力后，这些古老的神经网络结构迸发出更加巨大的能量。这个深度学习史上有趣的八卦，我们如今听来却也不胜唏嘘。技术的发展往往是螺旋式且兼具跳跃性，实在难以预料。正如今天的我们在清华的大礼堂里与Lecun一起畅想着深度学习与人工智能的未来，却不知十年、二十年后我们又在哪里用什么样的视角来看待今天的自己。

　　技术干货

　　尽管未来是如此的难以预料，但科研的道路却是一步一个脚印的走出来的。Lecun接着给大家展示了一系列的技术干货，包括近几年在计算机视觉（Computer Vision）、深度学习（Deep Learning）等方面的最新进展以及颇有未来潜力的技术方向对抗学习（Adversarial Learning）。

　　深度卷积网络（Deep Convolutional Nets）

　　Lecun先向大家介绍了在各类计算机视觉任务中举足轻重的技术——深度卷积神经网络（Deep CNN）。并向大家解释为什么深度卷积网络会非常有效，因为我们假设世界（图像）是由很多很多小的部分（特征）组合而来，而当深度卷积网络作用于图像时，随着深度的增加会提取出更加高层次的抽象特征，而这些特征对图像的识别非常有用。原始的机器学习方式是需要人来手工设计特征，再在设计后的特征上训练分类器，而深度学习高效地自动化了特征抽取及表示这一块的工作，因此现在已经成为图像处理的主导性技术。深度学习被视为一种自动学习层级化特征表示的学习方法。

　　近些年，逐渐加深的深度卷积神经网络显示出了依次递增的识别效果，从VGG到GoogLeNet，再到ResNet，也印证了Lecun所说的深度卷积网络逐层抽取特征的能力。

　　接着，Lecun给大家展示了一些基于深度卷积网络的有趣应用，比如自动驾驶，

　　看图说话，

　　定位并识别物体的DeepMask技术，

　　更加高性能的SharpMask++，

　　以及图像中各类目标的定位及识别。

　　人工智能继续前进的障碍（Obstacles to AI）

　　Lecun认为想要实现人工智能，机器需要首先感知世界的状态，然后需要能够更新和记忆世界的状态，并在此基础上实现推理和规划。因此，智能和常识可以视为感知（Perception）+预测模型（Prediction Model）+记忆（Memory）+推理和规划（Reasoning & Planning）。

　　那么什么是常识呢？比方说“汤姆拿起了他的包离开了房间”，我们人看到这个视频就可以理解对应的行为，而机器只是看到了汤姆拿起包、打开门、离开房间和关上门等一系列的动作，如何让机器去理解呢？

　　常识就是通过想象（预测）来填补空白的能力。

　　接着Lecun指出了进一步发展非监督学习（预测学习）的必要性。考虑到用于训练一个大的学习机器的必要数据量取决于我们要求它能预测多少信息，因此，仅仅预测人们所提供的标签（监督学习）是不够的，仅仅预测一个值函数（强化学习）也是不够的。

　　接着Lecun展示了他著名的“蛋糕”理论。根据需要机器预测信息的多寡来考量，“纯”的强化学习仅仅是蛋糕上的樱桃，而监督学习也不过只是蛋糕的一层糖衣，真正的蛋糕本身其实是强化学习（预测学习）。

　　当然这里Lecun表示这种说法有些冒犯强化学习方向的同僚，因为强化学习确实获得了一些巨大突破，比如AlphaGo还有各种电竞游戏等。

　　Lecun展示了经典的强化学习架构Dyna——“在脑中先尝试然后再去行动”，以及经典的基于模型的最优控制。

　　人工智能系统的架构（The Achitecture of an Intelligent System）

　　Lecun展示了人工智能系统的两个重要组成部分：一个会学习的智能体和一个不变的目标函数。智能体进行从世界中感知，做实际决策，再感知，再决策，………这样一个循环迭代的过程，智能体的目标是最小化长期的期望损失。

　　而把预测和规划联合起来就是推理。如何优化智能体做决策的过程呢？可以通过最小化预测损耗来实现。

　　我们需要的是如下基于模型的增强学习。

　　学习世界的前向预测模型（Learning Predictive Forward Models of the World）

　　Lecun给大家展示了基于卷积网络预测掉落物体轨迹的PhysNet。

　　之前Lecun提到，记忆（Memory）是非常重要的一块，而最新的研究工作就尝试了如何把记忆引入到神经网络中去，即所谓的记忆网络（Memory Network）。

　　通过引入可导的记忆模块，我们就可以直接通过反向传播（BP）来训练如何处理记忆。

　　Facebook提出了实体周期神经网络（Entity Recurrent Neural Network），这是第一个解决所有20个bAIb任务的模型。（bAIb是Facebook设计的测试模型推理能力的数据集）

　　非监督学习（Unsupervised Learning）

　　Lecun介绍基于能量的非监督学习，基本的思想是学习一个能量函数，使其在数据流形上具有较低的值，而在空间其他地方具有较高的值。

　　那么我们怎么学习能量函数呢？

　　我们可以参数化能量函数，然后利用数据估计出相应的参数。那具体我们是怎么估计的呢？

　　下面列了7种构建能量函数的策略，但Lecun表示并不想讲这7种，因为近几年提出的对抗学习（Adversarial Learning）更有意思。

　　对抗学习（Adversarial Learning）

　　Lecun指出预测模型的困难之处，需要基于不确定性去做预测。比如我们感知到了一个输入X，而X不过是世界里真实分布的一个采样，假设其由某个隐变量Z而决定，其相应的预测值Y是处于空间的某个流形分布之中，如果采样不够多的话，我们并不能够很好的估计这个流形，这也是预测的困难之处。

　　而从基于能量的观点看对抗学习，可以由生成器来决定让哪些点的能量值变高。

　　下面看一个富贵论坛生成器的例子，输入是随机数，输出是卧室图片。这都是完全由模型生成的图片，并不真实存在。

　　有趣的是对抗训练可以做算术运算生成相应含义的图像。

　　对抗训练还可以用在视频预测上，取得了不错的效果。

　　我们可以像人脑一样去预测未来吗？可能目前通过对抗训练取得了一些进展，但这个问题还远远没有解决。

　　如果使用模型预测5帧，效果还不错。

　　但如果我们用其预测50帧的话，效果就大打折扣了。

　　尾声

　　两个小时的演讲结束后，大家热情依然高涨，踊跃地向LeCun提各种问题，LeCun也给出了很多精彩的回答，他认为现在的研究环境越来越好，有在线免费的学术分享网站Arxiv（arxiv），每天都会有新工作挂出供大家学习讨论，同时大家都争相开源代码，方便更多的人发现并学习新技术，技术的更新迭代速度越来越快，他相信未来人工智能和深度学习技术还会有更大的进步，将从各个方面改善人们的生活，比如更安全的自动驾驶，Facebook更智能的人与人的连接服务等等。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。