神经网络和深度学习简史（四）

“问问机器学习从业者，究竟是什么还在维持着奄奄一息的神经网络？你可能会听到以下三个人名中的一个：Geoffrey Hinton，加拿大的Yoshua Bengio，或是Facebook的Yann LeCun。”[1]

一、深度学习计划

当你想要发动一场革命，你就要从阴谋开始。随着支持向量机（SVM）的成功以及反向传播的失败，神经网络的研究在21世纪迎来了黑暗时期。LeCun和Hinton不约而同的提到了他们或他们学生的论文，在那样一个时期是如何被拒绝出版的，而原因仅仅是他们的主题是有关神经网络的。最上方的引言可能有一些夸张的成分，还是有一些人在从事机器学习和人工智能的研究，他们也还在使用神经网络，但是他们自己也清楚神经网络的研究已经陷入了一个低谷。坚持这一研究的他们找到了一个强大的盟友：加拿大政府。加拿大的高级研究所（CIFAR）出资资助他们从事这种没有实际应用的基础科学的研究，而这也在1987年促使Hinton搬到加拿大继续他的研究。然而，随着90年代中期社会对神经网络的态度再一次反转，资助资金取消了，但Hinton并没有放弃它的研究，它设法继续从CIFAR获得资金，以供自己继续从事神经网络的研究。

“2004年，Hinton要求推动一个新的神经计算，主流机器学习社区不可能对神经网络一点兴趣也没有。”

“这可能是最糟糕的时间。”CIFAR的联合发起者，来自蒙特利尔大学的Bengio如此说道。“从去年开始，大家都在忙着不同的事情，但是不知怎的，Geoff说服了他们”，

“我们应该给CIFAR一点信心，好让他们愿意加入这个计划。”

CIFAR“对机器学习社区的建立起到了巨大的作用。” CIFAR的另一位联合发起者LeCun补充到，“我们有点被广义的机器学习社区抛弃了的意味：我们的论文无法发表。但这给了我们一个可以交流想法的平台”

尽管资金不多，但也足够一小群研究人员继续工作了。正如Hinton自己所说，他们通过把神经网络改名为深度学习这样一种阴谋方式，来继续对神经网络进行研究。然后，每一个神经网络研究者希望看到的事情发生了：Hinton, Simon Osindero, 和Yee-Whye在2006年发表了一篇被认为可以重新燃起社会对神经网络的兴趣点文章：一种可以实现快速学习的深度信念网络[2]。尽管这些算法已经被新的算法所取代，但是我们已经初步看到了“深度学习”的端倪。比这个名字更重要的是，如果权重可以以更好的方式来代替随机初始化，多层神经网络可以被训练得很好。Hinton曾经这样表示：

“这是一个历史性的时刻，这个时刻我们克服了对神经网络的成见。这些成见认为神经网络不好，永远都不会训练。前不久我的一个朋友向国际机器学习会议（ICML）投稿，但是评审拒绝了他，仅仅是因为文章的内容是关于神经网络。可以查ICML近几年的收录记录，没有任何一篇文章是有关神经网络的。所以IEEE期刊应该是又一个‘不接受神经网络’的官方政策。所以这是一个重要的时刻”

图4.1 限制玻尔兹曼机

那么我们究竟应该怎么聪明的初始化权重？基本思想是逐层的对每一层神经网络进行无监督训练，起始权重是一些随机值，然后想常规神经网络的完成一次监督学习。每层都会以一个受限玻尔兹曼机作为开始，并把它作为隐含层之间的可见单元的连接点，以无监督的方式来训练生成模型。事实证明，这种训练方式可以按照Hinton在2002年的论文“Training Products of Experts by Minimizing Contrastive Divergence”[3]中提及的方式进行，并取得不错的成果。该算法不仅使单元产生训练数据的可能性最大化，还被证实训练结果十分理想。算法如下：

1、在RBM上使用对比-散度的方式训练数据。这是信念网络的第一层。

2、对通过RBM的数据生成隐含值，并使用这些隐含值来训练另外一个RBM。把这些隐含值“堆”在第一层，并保持权重在想用的方向，形成一个信念网。这是第二层。

3、重复第二部，直到达到需求的信念网的层数。

4、如果需要分类，则需要添加对应分类标签的一组隐藏单元，并对唤醒睡眠的的算法作出微调来调整权重。这种无监督学习和监督学习组合的方式通常被称为半监督学习。

图4.2 Hinton介绍的分层预训练

该文结尾处表示，深度信念网络（DBNs）对于标准的MNIST识别字符数据集具有最优性能，明显优于只有几层的神经网络。Yoshua Bengio等人在2007年的论文“Greedy Layer-Wise Training of Deep Networks”[4]中，提出了一个强有力的证明，证明了深层机器学习方法（有许多步的算法，或等价于有很多维的特征的数据），在处理复杂的问题比简单的算法（有两层的ANN或是支持想理机之类的算法）更加有效。

图4.3 另外一个无监督与训练的观点，使用自动编码器来代替RBM

他们还提出了添加无监督训练的原因和结果，因为这样不仅可以以更优化待方式初始化权重，更重要的是还可以对数据进行更有代表性的学习。事实上，使用RBM并不是那么重要，使用反向传播或普通自动编码器的正常神经网络层的无监督的预训练效果也很好。同样，稀疏编码也表明无监督特征学习是一种提高监督学习性能的方式。

所以，深度网络的真正关键之处在于，多层的计算单元可以更好的训练高维原始数据。这与传统的手动设计特征提取方法，再进行特征学习的方式大相径庭。Hinton和Bengio的工作也证明了这个事实，更重要的是打破了深度神经网络不能被良好的训练这样一个误解。尽管LeCun已经证明了CNNs，但神经网络仍然是去了青睐。Bengio与Yann LeCun一同在论文 “Scaling Algorithms Towards AI”[5]重申了这一点：

“直到最近，有很多人都认为深度神经网络的训练算法太难优化。然而至少有两种不同的方法已经被证明了在此种架构下是很有效的：一是基于卷积神经网络的简单梯度下降法[LeCun等人在1989年、1998年论证]，该算法在（图像和信号领域）逐层进行无监督学习。二是梯度下降法[2006年Hinton等人，2007年Bengio等人，2006年Ranzato等人]。深度学习架构仍处于起步阶段，更好的深度学习算法仍有待发现。从更广阔的角度来看，我们仍需要一个指引AI未来发展方向的原则。我们希望通过鼓励他人，大家一起寻找解决通过机器学习方式来解决AI的方法。”

尽管深度学习还没有获得今日一般的科研热潮，但他们确实在开始并进行一些鼓励性工作，深度学习的浪潮也因此开始涌动了。但是，论文中这些被证实有效的算法大多数是针对MNIST数据集，这时候MNIST数据集作为一个经典的机器学习任务已经成为了算法的标准基准近十年了。Hinton在2006的论文在测试机上取得了惊人的1.25％的错误率，但是SVM也取得了1.4%的错误率，简单的算法也可以得到很低的错误率。Yann LeCun在1998年使用CNN证明了错误率仅为0.95％。

所以在MNIST上成绩好并不见得是什么大本事。这个时候，是深度学习登上历史舞台了。Hinton和他的两个研究生Abdel-rahman Mohamed和George Dahl，完成了一个更具有挑战性的AI任务：语音识别[6]。使用DBN，Hinton和这两个学生在一个标准语音识别数据集改进了一个尘封了10年的记录。这是一个令人深刻的成就，但今天看起来似乎暗示着什么：越来越堵的记录逐渐被打破了。

二、硬件的重要性

上述算法的出现无疑促进了深度学习的发展，但是深度学习的进不来不开另外一个重要组成部分：从上世纪90年代以来就在不断进步计算能力。根据摩尔定律，90年代以来的计算机的运算速度已经提高了十几倍，这使得大数据的采集和多层学习变得更加容易。但是这还远远不够，CPU的运算能力开始达到顶点，而计算机也开始通过几个CPU并行的方式来增加计算机的功率，为了学习深度学习中上百万的节点的权重，我们必须大幅度克服CPU并行处理的局限性，并采取大规模GPU并行的方式来增强计算能力。为了更好了理解这一点，我们来看看Abdel-rahman Mohamed，George Dahl和Geoff Hinton是如何提升他们的语音识别算法的性能的[7]。

“受到Hinton一篇关于深度神经网络的演讲的启发，Mohamed开始将这一算法应用到语音识别，但是深度神经网络需要太多的计算机来提升计算能力，所以Hinton和Mohamed拉上了Dahl。Dahl是Hinton实验室的学生，他已经开始使用相同规格的高端显卡来训练和模拟神经网络了，而这些高端显卡是用来提升电脑游戏画面的。”

他们采用相同的方法来识别短的语音窗口中的音素片段的问题，Hinton表示，该方法可以是结果获得显著的提升。

这种情况很难明确的表示使用GPU比CPU效果具体好多少，同年的“Large-scale Deep Unsupervised Learning using Graphics Processors” [8]大赛给出了明确的数字：75倍！70倍的速度将会把几周的工作量简化为几天，甚至一天就可以完成。包括著名的机器学习研究者Andrew Ng在内的众多稀疏编码研究者，开始逐渐意识到大家过多的重视算法的变化，却忽略了对数据量以及算法速度的利用。这样的想法在2010年出版的“Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition”[9]里面得到了强烈的支持，该文的作者是LTSM的联合创始人之一的J. Schmidhuber，该文表示大规模的神经网络、输入上的多种变化以及高效的GPU实现，可以在MNIST数据集上实现惊人的0.35%的错误率。这样的算法已经存在了几十年，虽然不能否认算法也在进步，但是这个结果无疑表明大的数据量和快速并行计算能力同样重要。

Dahl和Mohamed使用GPU来打破的纪录尽管很小，但也足以使他们成为微软研究院的实习生。在这里，他们接触到了另外一种计算趋势：大数据。大数据作为一个很宽泛的概念，却很容易在机器学习中被理解，大数据代表着大量的训练数据。大量的训练数据才似得神经网络达到了现在的高度，神经网络过去太过于工作在训练数据上，却不推广到新的测试数据。这背后的数学道理是：大型神经网络需要大量的数据进行训练，以避免它们学习到训练集中某个不重要的方面，这在以前是研究人员面临的一个重要的考验。现今，大公司的的数据收集和计算能力证明被是无价的。这两个学生在三个月的实习期间轻松地证明了深度学习的力量，而微软研究院自那时起就一直处于深度学习语音识别的前沿。

微软不是第一家认识到深度学习能力的大公司，但很有可能是第一个。Hinton的另一名学生Navdeep Jaitly于2011年在Google做了暑期实习。在那里，他致力于Google的语音识别，并表示他们现有的设置可以通过结合深度学习得到很大改进。改进的方法很快就支持Android的语音识别，取代了Google绝大多数现有的精心制作的解决方案。

除了这些谦逊的博士生对这些公司产品做出的巨大改变，还有两家公司我们不得不提，就是持有开源态度的微软和谷歌。就像IBM和Hinton的实验室一样，这里在2012年诞生了题为“Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups”[10]的论文。这一文章的研究人员分别来自四个研究小组，三个公司。建立一个支持深度学习的包以供大学的科研小组使用，来普及这项技术并推广到更多的团体，这样一个想法从那以后似乎在科研界中被逐渐采纳。

但我们也不能因此说各大公司是出于慈善的角度才这样做的。这只是关于商业化技术的探索，当然大多数都是属于谷歌的。但是发起人可能不是Hinton，而是Ng博士，正是他提议谷歌成为世界最大的商业化探索者和技术的倡导者。2011年，Ng在访问该公司时偶然会见了传奇的Google员工Jeff Dean，并聊了他利用Google的计算资源训练神经网络的努力。这成功的引起了Dean的注意，也促成了谷歌大脑的形成——建立一个真正巨大的神经网络，并探索他们可以做什么。这项工作使得了无人监管的神经网络学习达到了前所未有的规模 - 16,000个CPU核心可以学习高达10亿的权重（为了比较，Hinton2006年点DBN大概突破了100万权重）。这个神经网络经过对完全没有标签的Youtube视频进行训练，最终学会了识别这些视频中最常见的对象——互联网中最容易带来快乐的东西，猫：

图4.4 谷歌著名的神经网络，就是该网络学会了小猫。这是对一个神经元的最好输入

小猫不但可爱，还用重要意义。正如在定期发表的论文中描述的，该模型所学到的特征可用于在标准计算机视觉上记录基本的设置性能[11]。因此，Google内部用于训练数据大规模的神经网络工具诞生了，他们仍然继续发展。因此2006年开始的深度学习研究浪潮毫无疑问的把谷歌推入了行业之中。

三、机器学习的繁荣期

在工业界依然开始研究深度学习的时候，学术界也很难保持静止了。在发现对GPU的利用和计算能力大大增强，我们不禁想到那个很早以前的问题：为什么反向传播效果不好？对于为何旧算法效果不好而不是为何新算法效果好的思考，促成了Xavier Glort 和Yoshua Bengio2010年发表的论文“Understanding the difficulty of training deep feedforward neural networks” [12]。文中他们讨论了两个非常有意义的发现：

1、为什么在神经网络中对神经元选择特定的非线性激活函数会对性能产生巨大的影响，通常情况下默认的非线性激活函数不是一个很好的选择。

2、随机选择权重并不是那么有问题，就如同不考虑是哪一层来选择随机权重。过去的梯度消失问题是因为反向传播涉及到一系列乘法运算，这会导致前层的导数较小。这就意味着，我们要根据所在层的不同来选择权重，这将会带来性能上的显著改变。

图4.5 不同的激励函数，ReLU代表非线性修正单元

第二点就是为了结局第一点提出的问题：“什么是最好的激励函数？”三个不同的小组研究了这个问题（LeCun的团队讨论“对象识别领域什么事最好的多级架构？”[13]，Hinton的团队讨论“线性修正单元改进玻尔兹曼机”[14]，Bengio的团队讨论“深度稀疏编码神经网络”[15]）他们的研究都指向了一个让人震惊的答案：非常不可微和非常简单的函数f（x）= max（0，x）往往是最好的。吃惊之处就在于方程是严格不可微的，或者是在0处严格不可微，所以该方程的数学表达式往往是十分丑陋的。很明显零的情况是一种数学诡辩，问题在于，为什么这样一个在0的两侧连续导数都是0的方程，会有这样好的效果？答案似乎还不明确，但是我们有一些相关的想法：

1、修正函数导致稀疏表示，这就意味着只有少部分的神经元对于任何给定的输入需要输出一个非零值。在倡导修正函数的几年中，稀疏性被证明是有益的，因为它不仅可以以更鲁棒的方式来表示信息，还可以更显著大提升计算效率（如果大多数神经元都输出零，那么我们可以忽略大多数的问题并且更快的计算数据）。顺便提一下，计算神经科学的科研人员首先提出了稀疏计算在大脑视觉环境中的重要性，这比其应用于机器学习领域早了10年。

2、简单的函数以及其简单的导数使得该函数的工作速度比指数型的sigmoid 或是三角型的tanh快很多。就如同对GPU的使用，这不仅可以提升一小部分性能，这甚至可以作为可以在神经网络扩展方面可以做出挑战性突破的点。

3、后来，一篇由Andrew Ng合著的题为“Rectifier Nonlinearities Impro Neural Network Acoustic Models”[16]的论文，也分析了ReLU函数的常为0或1的微分并不会对学习过程造成不利影响。甚至它还有助于避免梯度消失的问题，而这些问题都是反向传播算法中不可避免的。此外除了可以产生更多稀疏表示之外，它还可以产生分布式的表示——这就意味着可以组合导出多个不同神经元的值，而不是定位到单个神经元。

在这一点上，我们可以知道，2006年的发现——无监督的预训练，在深度学习之中不是必要的。虽然毫无疑问，无监督的预训练是有帮助的，但是在另外一些情况下，监督训练可以比无监督训练有更好的结果，因为监督训练拥有争取的权值和激励函数。所以，为什么过去监督模型和反向传播不能很好的工作？ Geoffrey Hinton总结了时至今日的四点发现：

1、我们的标签数据比要求的小了上千倍。

2、我们的电脑比要求的慢了上百万倍。

3、我们很愚蠢的初始化了权重。

4、我们是用了错误的非线性激励函数。

所以，经过几十年的刻苦研究，我们知道：

深度学习=大量的训练数据并行计算可扩展的智能算法

图4.6 深度学习中的计算机视觉“配方”

不是所有的事情都要把其中的细节弄的清楚明白。恰恰相反：人类的直觉往往是错误的。特别是毫无疑问的决定和假设往往是值得质疑的。提出并解答简单的问题，这才是提高最先进的技术的正确方式。正是这种一直发生的行为，才导致机器学习领域更多的想法和方法被探索喝共享。举个例子：Hinton等人的“Improving neural networks by preventing co-adaptation of feature detectors”[17]这一想法很简单——在训练中假设一些神经元离线以防止过度拟合。这种被称为Dropout的简单想法，是一种非常有效的进行集成学习的方法，该算法可以对同一个训练集以不同的方式进行学习。机器学习技术发展到今天，随机森林也被认为是一种有效的集成学习的方式。尽管训练多个不同的神经网络技术上是可行的，但是代价也是十分昂贵的，但是这个简单的想法却在本质上实现了相同的目的。

但是2006年之后，让这些计算机视觉团体或其他研究人员再次重视神经网络的并不是这些研究发现。而是另外一种不高尚的方式：对其他非深度学习方法进行了一次碾压。Geoffrey Hinton招募了他的两个半途而废的合作者Alex Krizhevsky和Ilya Sutskever，他们共同参加了ILSVRC-2012计算机视觉竞赛。今日理解他们的工作十分简单，其思想已经在“ImageNet Classification with deep convolutional neural networks”[18]中阐述，组合起一些古老的概念（一个拥有池层和卷基层的CNN，输入数据有所改变），和几个创新点（高效的GPU实现，ReLU激励函数，Dropout），而这些组合起来正式现代深度学习。然后他们碾压了所有其他参赛者，他们作为第一名的错误率仅有15.3%，远远高于第二名的26.2%。这是在该比赛历史上第一次也是唯一一次出现CNN的项目，这一迹象表明，CNN和一般的深度学习不同，算机视觉必须要认真对待。现在，竞争的所有算法几乎都是CNN——那个由Yann LeCun 1989年提出的神经网络模型。还记得90年代由Sepp Hochreiter和JürgenSchmidhuber设计的用以解决反向传播问题的LSTM吗？这个限制是解决语音处理的首选方案。

这一事件就是整个学术届的转折点。一波远远超过其他技术的机器学习的浪潮终于袭来，谁都不能否认深度学习的成就。我们在最开始就把这种浪潮比做海啸，现在它终于成长到了这一天，在经历了那么多的寒冬以后，深度学习就这样屹立在这儿，再无寒冬可见。

图4.7 一些深度学习关键人物的论文索引数量，相信不需要我指出2012年以后的变化趋势，数据来源于谷歌学术。

四、最先进的技术

如果这是一部电影，那么无疑2012年的ImageNet大赛可以作为高潮。下面我们要具体介绍一下他们现在还在哪：Yann LeCun - Facebook；Geoffrey Hinton - Google；Andrew Ng - Coursera，Google，百度（译者注，吴恩达已于2014年5月16日离职google，任百度人工智能首席科学家）；Bengio，Schmidhuber和Hochreiter仍然在学术界（译者注，在实验室Maluuba被微软收购后，Yoshua Bengio已于2017年1月14日称为微软的科学家），还有一些其他未被提到研究人员／研究生[19]。事实上，正是这些人在机器学习领域深耕几十年（甚至被学术界所抛弃），才换来深度学习今日的成就。与以往的研究工作相比，这些人的想法仍然是十分开放的，甚至所有公司都是采购他们的深度学习框架，就像一种工业界引导学术界的传奇故事。

不会妄自菲薄的认为自己可以在一部分里面总结近几年的研究成果，因为这几年机器学习的科研成果层出不穷，我很清楚我们是无法在一部分里面全部列出的。也许有一天我们会通过五个部分把这些成果完成的故事列出来，下面我们来对做一个简介：

1、LSTM和RNN通过分布式的方式重现“想法”

图4.8 去年的研究成果

2、使用深度学习的强化学习（这一次更好了）

https://youtu.be/V1eYniJ0Rnk（来源于youtube的视频）

3、添加外部可读写存储器的神经网络

https://youtu.be/U_Wgc1JOsBk（来源于youtube的视频）

Kate Allen. How a Toronto professor’s research revolutionized artificial intelligence Science and Technology reporter, Apr 17 2015 http://www.thestar.com/news/world/2015/04/17/how-a-toronto-professors-research-revolutionized-artificial-intelligence.html ↩ ↩2 ↩3 ↩4 ↩5
Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554. ↩
Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural computation, 14(8), 1771-1800. ↩
Bengio, Y., Lamblin, P., Popovici, D., & Larochelle, H. (2007). Greedy layer-wise training of deep networks. Advances in neural information processing systems, 19, 153. ↩
Bengio, Y., & LeCun, Y. (2007). Scaling learning algorithms towards AI. Large-scale kernel machines, 34(5). ↩
Mohamed, A. R., Sainath, T. N., Dahl, G., Ramabhadran, B., Hinton, G. E., & Picheny, M. (2011, May). Deep belief networks using discriminative features for phone recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on (pp. 5060-5063). IEEE. ↩
November 26, 2012. Leading breakthroughs in speech recognition software at Microsoft, Google, IBM Source: http://news.utoronto.ca/leading-breakthroughs-speech-recognition-software-microsoft-google-ibm ↩
Raina, R., Madhavan, A., & Ng, A. Y. (2009, June). Large-scale deep unsupervised learning using graphics processors. In Proceedings of the 26th annual international conference on machine learning (pp. 873-880). ACM. ↩
Claudiu Ciresan, D., Meier, U., Gambardella, L. M., & Schmidhuber, J. (2010). Deep big simple neural nets excel on handwritten digit recognition. arXiv preprint arXiv:1003.0358. ↩
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., … & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. Signal Processing Magazine, IEEE, 29(6), 82-97. ↩
Le, Q. V. (2013, May). Building high-level features using large scale unsupervised learning. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on (pp. 8595-8598). IEEE. ↩
Glorot, X., & Bengio, Y. (2010). Understanding the difficulty of training deep feedforward neural networks. In International conference on artificial intelligence and statistics (pp. 249-256). ↩
Jarrett, K., Kavukcuoglu, K., Ranzato, M. A., & LeCun, Y. (2009, September). What is the best multi-stage architecture for object recognition?. In Computer Vision, 2009 IEEE 12th International Conference on (pp. 2146-2153). IEEE. ↩
Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML-10) (pp. 807-814). ↩
Glorot, X., Bordes, A., & Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics (pp. 315-323). ↩
Maas, A. L., Hannun, A. Y., & Ng, A. Y. (2013, June). Rectifier nonlinearities improve neural network acoustic models. In Proc. ICML (Vol. 30). ↩
Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580. ↩
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105). ↩
http://www.technologyreview.com/news/524026/is-google-cornering-the-market-on-deep-learning/ ↩

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。