想了解人工智能？看这一篇就够了

编者按：人工智能现在火得不行。但是对一般人来说，大家也就是看看热闹而已。什么是人工智能？人工智能是怎么发展的？又有哪些类型？其机制是怎样的？为什么到现在才取得突破？这些东西恐怕是不少人不知道的。所幸英国的VC David Kelnar写了一篇通俗易懂的AI介绍性文章，把过去60年人工智能所取得的进展给解释清楚了，值得一看。

过去10年我们一直在做一件事，那就是打造移动优先的世界。而在接下来的10年时间里，我们将转到一个AI优先的世界。——Google CEO Sundar Pichai，2016年10月

从Amazon和Facebook，到Google和微软，全球大部分最有影响力的技术公司都在表现出自己对人工智能（AI）的狂热。但什么是人工智能？为什么人工智能重要？为什么是现在？尽管对AI的兴趣与日俱增，但目前能理解该领域的主要还只是专业人士而已。这篇初级读物的目标是让更广大的受众能够理解这一重要领域。

我们会先从解释“AI”的含义以及包括“机器学习”在内的关键术语开始。我们将举例说明AI最有生产力的领域之一，所谓的“深度学习”是如何工作的。我们还会探讨AI解决的问题，以及为什么这些问题的解决那么重要。然后我们还将弄清楚一个问题：为什么早在1950年代就已经诞生的AI，直到今天才崛起。

作为VC，我们要寻找能为消费者和公司创造价值的新兴趋势。我们相信，AI是计算的一次演进，其重要性不亚于甚至甚于向移动和云计算的转移。Amazon CEO 贝索斯说：“AI在未来20年对社会产生的影响之大怎么评估都不为过。”我们希望这一指南可以穿越炒作，解释清楚为什么这一新兴趋势对我们所有人——无论你是消费者还是高管或者创业者、投资者都很重要。

什么是AI？

1、人工智能：智能程序的科学

“人工智能（AI）”这个词是达特茅斯大学助理教授John McCarthy在1956年发明的一个词，这个一般性术语是指展现出看似具有智能的行为的硬件或者软件。用McCarthy教授的话来说，它是“制造智能机器、尤其是智能计算机程序的科学和工程。”

基础“AI”出现已经有几十年的时间了，一开始为基于规则的程序，可在特定上下文环境下提供初步的 “智能”显示。但是所取得的进展较为有限——因为处理许多现实世界问题的算法对于靠人工编程来处理来说太过复杂。

复杂的活动包括做出医疗诊断、预测机器什么时候失效，或者评估特定资产的市值等，这些都牵涉到成千上万的数据集，以及变量之间非线性的关系。在这些情况下，是很难利用我们手头的数据来取得最好效果的——也就是“优化”我们的预测。在其他一些情况下，包括识别图像中的对象以及翻译语言等，我们甚至都无法制定规则来描述我们要寻找的特征。我们如何能编写出一套规则，在所有情况下都能描述一条狗的样子呢？

如果我们能够把做出复杂预测——也就是数据优化和特征描述的难题从程序员转移给程序会怎样呢？这个就是现代人工智能带来的希望。

2、机器学习：卸下优化的负担

图1：人工智能的演进

机器学习（ML）是AI的子集。所有的机器学习都是AI，但并非所有的AI都是机器学习（见上图）。今天对“AI”的兴趣反映的是对机器学习的狂热，因为这方面取得的进展较为迅速和重大。

机器学习让我们可以处理对于人来说太过复杂的问题，其手段是把其中一些负担交给了算法。正如AI先驱Arthur Samuel在1959年所述，机器学习是“让计算机有能力在不需要明确编程的情况下自己学习的研究领域。”

大多数机器学习的目标都是针对特定用例开发一个预测引擎。一个算法会接收有关某个领域的信息（比如某人过去看过的电影），然后给出输入的权重来做出有用的预测（此人将来喜欢另一部不同电影的可能性）。所谓的赋予“计算机学习的能力”，意思是指把优化（对现有数据的变量赋予权重以做出对未来的精确预测）的任务交给了算法。有时候我们还可以更进一步，把指定首先要考虑的特征这项任务也交给程序。

机器学习算法是通过训练来学习的。算法一开始会接收输出已知的例子，然后留意其预测与正确输出之间的不同，再对输入的权重进行调整，从而改进预测的精确度，直到完成优化。这样一来，机器学习算法的定义性特征就是通过经验来改善预测的质量。我们提供的数据越多（往往要到达一定的点），我们能创建的预测引擎就越好（下面的图2、3。注意所需的数据集规模是高度上下文相关的——以下的例子无法一般化）。

图2

图3

机器学习有超过15种方案，每一种都采用不同的算法结构来优化基于所接收数据的预测。其中一种方法叫做“深度学习”，这种方法在新领域取得了突破性的结果，我们会在下面进一步探讨。但是除此以外还有很多种方法，尽管这些方案受到的关注略低，但仍然很有价值，因为它们适用于很广范围的使用案例。除了深度徐诶以外，其他一些最有效的机器学习算法包括：

“随机森林”，可创建众多决策树来优化预测；
“贝叶斯网络”，可利用概率法来分析变量和变量之间的关系；
“支持向量机”，提供分类的实例给它，它就能创建模型，然后分配新的输入给其中一个类别。

每一种方法都有各自的优势和劣势，而且结合使用也是可以的（“集成”法）。选定用于解决特定问题的算法要取决于包括现有数据集性质在内的因素。实际上，开发者往往会进行试验来看看哪种有效。

机器学习的用例视我们的需求和想象不同而不同。有了合适的数据，我们就能针对无数目的开发算法，这包括：根据某人此前购买历史推荐其可能喜欢的产品；预测某机器人或者汽车装配线什么时候会失效；预测电子邮件是否寄错；估计信用卡交易属于欺诈的可能性，等等。

3、深度学习：卸载特征定义的麻烦

即便有了一般机器学习——比如随机森林、贝叶斯网络、支持向量机等，编写能很好地执行特定任务，比如语音识别号图像识别等的程序仍然很困难。为什么？因为我们不能用实用、可靠的方式来指定需优化的特征。比方说，如果我们想写一个程序来识别汽车图片，我们不能为算法处理指定汽车的特征，能让它在任何情况下都能正确识别。汽车的形状、大小、颜色都各不一样。位置、方位和造型也各异。还有背景、光线等大量的其他因素影响着该对象的样子。写一套规则涉及到的变化太多了（多到几乎无法穷举）。而且即便我们能写出这样的规则，那也不会是可扩充的解决方案。因为我们得为每一种我们希望识别的对象都编写一套程序。

于是就引出了深度学习（DL），这个东西彻底改变了人工智能世界。深度学习是机器学习的子集——是后者超过15种方法的一种。所有的深度学习都是机器学习，但并非所有的机器学习都是深度学习（见下图4）。

图4

深度学习是有用的，因为它避免了程序员必须承担特征定义（定义特征来对数据进行分析）或者优化（如何赋予数据权重以提供精确预测）的任务——这两件事情都由算法包办了。

这是如何实现的呢？深度学习的突破是对大脑而不是世界建模。我们的大脑学习做复杂的事情——包括理解原因和识别对象等，靠的不只是处理详尽的规则，还包括练习和反馈。小时候我们体验这个世界（比方说我们看汽车的图片），做出预测（“汽车！”）然后收到反馈（“是的！”）。在没有掌握详尽规则集的情况下，我们通过训练来学习。

深度学习采用相同的办法。把近似于大脑神经元功能的，人工的、基于软件的计算器连接到一起。它们组成了一个“神经网络”，这个网络接收输入（比如前面我们提到的汽车照片）；分析它；对它做出判断然后再接收自己判断是否正确的信息。如果输出错误，算法就会对神经元之间的连接进行调整，而这将改变未来的预测。一开始神经网络会发生很多的错误。但随着我们提供了上百万的例子，神经元之间的连接就会不断得到调整，最终使得这个网络几乎在所有情况下都能得出正确决定。熟能生巧（几乎）。

通过之一过程，随着效率不断增加，我们现在可以：

识别图片的元素；
实时进行语言翻译；
用语音来控制设备（苹果的Siri、Google Now、Amazon Alexa以及Microsoft Cortana）；
预测遗传变异如何影响DNA转录；
分析客户评论的情绪；
检测医疗影像中的肿瘤等。

当然，深度学习并不是适合于每一个问题。它通常需要用庞大数据集来进行训练。训练和运行神经网络还还需要庞大的计算能力。它还有一个“可解释性”的问题——究竟神经网络是如何形成预测是很难知道的。但通过解放程序员让后者不需要进行复杂的特征定义，深度学习为一系列重要问题提供了一个成功的预测引擎。因此，它成为了AI开发者工具包当中的一项强大的工具。

深度学习是如何工作的？

鉴于深度学习的重要性，了解一些深度学习的基本原理是很有价值的。深度学习牵涉到对人工的“神经网络”——一组相互连接的“神经元（基于软件的计算器）”的利用。

一个人工神经元有一到多个输入。它会根据这些输入执行数学运算然后产生输出。输出要取决于每一项输入的“权重”，以及神经元中的“输入—输出函数”的配置（见下图5）。输入—输出函数会各有不同。神经元可以是：

线性单元（输出与输入总权重成正比关系）；
阈值单元（输出设定为两级中的一级，具体取决于总输入是否超过特定值）；
Sigmoid单元（输出不断变化，但不是随输入变化而线性改变）

当神经元相互连接到一起时，神经网络就被创建出来了，而一个神经元的输出就会变成另一个神经元的输入（见下图6）。

图5、6

神经网络被组织为若干层神经元（“深度”学习就是这么出来的）。“输入层”接收网络要处理的信息——比方说，一组图片。“输出层”则提供结果。在输入和输出层之间的是“隐藏层”，大部分活动都在这里发生。一般而言，神经网络每一级的每一个神经元的输出都会充当下一层每一个神经元的输入（见下图7）。

图7

我们可以看看下面这个图像识别算法的例子——假设我们要识别图片中的人脸。当数据被提供给神经网络时，第一层仙湖识别局部反差模式——也即是像轮廓这样的“底层”特征。随着图像横穿网络，“更高层”特征逐步被解析出来——从轮廓到鼻子，然后从鼻子到脸部（见下图8）。

图8

在它的输出层，根据训练神经网络会给出该图片属于特定类型的概率（人脸：97%；气球2%；叶子1%）

通常，神经网络的训练是通过给它提供大量打上标签的例子来进行的。错误可以被检测到，而算法会调整神经元之间连接的权重来改善结果。在部署好系统并对未打标签的图像进行评估后，优化的过程还会重复进行很多次。

上面是一个简单的神经网络例子，但是它们的结构可以是各不相同的，而且大部分都会更加复杂。变化可以是同一层神经元之间的连接；每层神经元数量的不一样；以及返回给上一级网络的神经元输出数（“递归”神经网络）。

设计和改进神经网络需要可观的技能。步骤包括对针对特定应用的网络架构设计，提供合适的数据训练集，根据进展情况调整网络结构，以及多种方法的结合等。

AI为什么重要？

AI之所以重要是因为他解决了极其复杂的问题，而这些问题的解决方案可以应用到对人类福祉重要的领域——从健康、教育，到商业、交通，乃至于公用事业和娱乐等等。自1950年代以来，AI的研究主要集中在以下5个领域：

推理：通过逻辑推理解决问题的能力
知识：展示有关世界知识的能力（理解这个世界有特定的实体、事件以及情况；知道那些元素有属性；并且那些元素可以分类）
规划：设置和实现目标的能力（这个世界有一个特定的未来状态，这个状态是令人满意的，可以采取一系列动作来影响朝着这个状态发展。）
沟通：理解书面和口头语言的能力。
感知：通过可视化图像、声音等感觉输入推断事物的能力。

AI是有价值的，因为在许多上下文环境下，这些能力的进步是革命性而不是渐进性的能力。以下是AI的一些应用例子，但远不止这些。

推理：法律评估；金融资产管理；金融应用处理；游戏；无人武器系统。
知识：医疗诊断；药物创新；媒体推荐；购买预测；金融市场交易；防欺诈。
规划：物流；调度；导航；物理和数字网络优化；预测性维护；需求预测；存货管理。
沟通：语音控制；智能代理；虚拟助手和客户支持；书写与口头语言的实时翻译；实时抄写。
感知：无人车；医疗诊断；监控。

在不久的将来，机器学习能力将会被应用到几乎所有的板块各种各种的过程上面。可以考虑一个企业智能——比方说，公司内的人力资源活动可以举例说明机器学习可应用于哪些过程：

通过增强定向的、智能的工作匹配以及部分自动化评估来改善招聘效果；
通过对人员要求以及短缺可能性的预测性规划可以增强劳动力管理；
随着推荐给员工的内容越来越合适，劳动力学习可以变得更加高效；
通过预测有价值员工有离职的风险，可降低员工流失率。

随着时间的转移，我们预期机器学习的采用会变得常态化。机器学习将成为开发者标准工具包的一部分，这一开始可改进现有流程，然后还会再造这些流程。

机器学习的二阶效应还会超过其直接影响。比方说，深度学习已经改善了计算机视觉，以至于无人车（汽车和卡车）都已经变得可行。但它们的影响又是什么呢？今天，英国90%的人和80%的货物都是通过道路运输的。光是无人车就会影响到：

安全（90%的事故都是由于司机不注意导致）
就业（服务英国运输和物流业的就有220万人，年工资估计达570亿美元）
保险（Autonomous Research预计英国汽车保费将降价63%）
板块经济（消费者可能会用按需交通服务来替代汽车所有权）
车辆吞吐量；城市规划；监管等。

为什么AI会在现在成熟？

AI研究始于1950年代，在经历过几次AI寒冬之后，为什么会在现在出现拐点呢？最近几年AI的效率出现转变是因为有了新的算法、可用的数据量变得更大、用来训练它们的硬件变得更好，以及催化开发者采用它们的云计算服务。

1、算法改进

尽管深度学习不是新东西——第一个有效的多层神经网络规范早在1965年就已经发布——但过去10年深度学习算法的演进却改变了结果。

我们识别图像内对象的能力被卷积神经网络（CNN）的发展改变了（见下图9）。其设计受到了动物视皮质的启发，神经网络的每一层都充当了特定模式过滤器的角色。2015年，微软基于CNN的计算机视觉系统识别图像的有效性（95.1%）已经超过了人类（94.9%）。他们是这么写的：“据我们所知，我们的结果首次超过了人类的表现。”CNN更广泛的应用包括视频和语音识别。

与此同时，由于递归神经网络（RNN）的创建，语音和手写文字识别也得到了迅速发展（如下图10）。RNN有反馈连接，使得数据可以循环流动而不是像卷积神经网络那样只“向前提供”。RNN有一种新型的网络非常强大，它的名字叫做长短期记忆（LSTM）模型。有了额外连接以及记忆细胞之后，RNN可以 “记住”自己在数千个步骤前看过的数据，然后利用这个来提供对后面的解释——这对于语音识别来说很有价值，因为对后面单词的解释需要以之前过的词为依据。从2012年开始，Google就开始使用LSTM为Android的语音识别系统提供支持。刚刚在6周之前，微软的工程师报告说他们系统的词错误率已经低到5.9%——这是AI有史以来首次跟人类能力相当。

图9

图10

2、专门硬件

图形处理器（GPU）是专门的电子电路，可以大幅减少训练用于深度学习的神经网络所需的时间。

现代GPU原来是在1990年代末研发出来的，其目的是加速3D游戏和3D开发应用。3D环境的镜头摆动和缩放要重复利用一个叫做矩阵计算的数学过程。而包括当今计算机所用的CPU在内的串行结构微处理器，却很不擅长做这个。GPU则采用了大规模的并行架构（Nvidia M40有3072核），可有效执行矩阵运算。

训练神经网络大规模利用了矩阵计算。对3D游戏有用的GPU因此就很适合于加速深度学习。其效果相当可观，一个简单的GPU可提供神经网络训练时间5倍的改善，而对更大的问题取得10倍或更多的改善也是有可能的。再结合上针对广泛使用的深度学习框架调优的软件开发包时，训练速度的改进甚至还要更大（下图11）。

图11

3、大规模数据

用于深度学习的神经网络一般都需要大型数据集来进行训练——这个规模可以从几千个样例到好几百万。幸运的是，数据的创建和可用性已呈指数增长之势。今天，随着我们进入“第三波”数据浪潮，人类每天可产生的2.2艾字节（2300百万GB）的数据；而全球90%的数据都是在过去24个月内产生的。

而“第一波”的数据制造潮始于1980年代，这牵涉到了文档的创建以及交易性数据，这一波是由于连接互联网的桌面PC催生的。随后，无所不在、永不断线的智能手机又制造出了“第二波”数据浪潮，导致了非结构化数据（电子邮件、照片、音乐和视频）、web数据以及元数据的爆发。今天，我们正在进入数据的“第三纪”，工业和家庭部署的机器传感器又创造了新的监控数据、分析数据以及元数据。

考虑到今天创建的大部分数据都是通过互联网传输来使用的，日益膨胀的互联网流量充当了海量增长的人类数据制造的代理作用。1992年，我们每天传输的数据量为100GB，但到2020年，我们每秒钟传输的数据量就将达到61000GB（见下图12，注意看纵坐标的刻度尺）。

图12

除了日益增长的一般数据以外，专业数据资源也催化机器学习的进展。比方说，免费开放的人工标记图像数据库ImageNet的规模已经超过了1000万张。它的出现为对象分类深度学习算法的快速发展提供了支持。

4、云服务

开发者利用机器学习也受到了业界领先的云提供商基于云的机器学习基础设施和服务的催化。

Google、Amazon、微软和IBM都提供了基于云的基础设施（建模、迭代、可伸缩的“GPU即服务”及相关管理服务的环境），科研降低开发机器学习能力的成本和难度。

此外，他们还提供范围不断扩大的基于云的机器学习服务（图像识别、语言翻译等），开发者可以直接在自己的应用中使用这些服务。Google Machine Learning提供的方便使用的服务包括：视觉（对象识别、显式内容检测、脸部识别和图像情绪分析）；语音（语音识别和语音转文本）；文本分析（实体识别、情绪分析、语言检测和翻译）；员工求职搜索（机会显现、基于资历的匹配）。微软的Cognitive Services包括了超过21种服务，涉及视觉、语音、语言、知识和搜索等领域。

5、兴趣与创业

过去5年，公众对AI的兴趣增长了6倍（见下图13），而VC机构对AI公司的投资数增长甚至还要大（见下图14）。我们已经进入到了一个良性循环里面，一方面机器学习的进展在吸引着投资，创业和意识。而后者反过来又会催化更进一步取得进展。

图13

图14

接下来会发生什么？

机器学习的好处将是巨大和深远的。从无人车到人机交互的新方式，许多的好处我们可以看得见。还有很多则没那么明显，但却会促进更多的更高效更有力的日常商业流程和消费者服务。

就像任何范式转移一样，有时候膨胀的期望（Gartner技术炒作曲线）会超过其短期的潜能。我们预计AI 会在未来经历一段幻灭期，接下来，随着机器学习被用于改进然后重塑现有系统，AI将迎来更长更持久的一段价值认识期。

在历史上，产业革命通过动力和传送的新来源变革了生产和沟通。1780年代的第一次工业革命用蒸汽动力实现了制造的机械化。1870年代的第二次工业革命则是用电力推动了大规模生产。1970年代的第三次工业革命利用电子和软件实现了生产和通信的自动化。今天，随着软件蚕食世界，我们的主要价值创造来源是信息的处理。通过促进我们实现那么多事情的智能化，机器学习所带来的好处既看似微不足道又具有历史意义。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。