让我们“深度学习”一下人工智能

印奇：我认为人工智能的本质是来自对大脑的研究，所以我想先介绍一下deep learning（深度学习），这个词最近出现的很多，它其实是机器学习的一种。你可以把机器学习当做黑盒，不用了解这里面的技术是怎么实现的，最关键你要知道它有两个状态，第一个状态是学习状态，第二个状态是执行状态。就像对一个孩子，当你希望他掌握一个技能的时候，一定要给他足够的训练，在中式教育中就是题海战术。所以任何机器学习都需要有很多数据，这些数据当中往往包含问题和答案，不同的机器学习需要的数据量不一样。学习完之后，这个小孩就毕业了，以后他在执行相同任务的时候，自然而然就会给出分析结果。

以人脸识别为例，人脸识别在学习的时候只用做一个非常简单的输入，我们会给两个不同人的脸都加上 YES 或 NO，但是这个输入按现在的系统可能要到百亿次，原来需要学习几个月，现在系统的效率很高，学习一周左右就可以做一个升级，之后这个机器就能做人脸识别了。所有人脸系统的输入，最后会给你一个分值，这个分值是介于0和1之间，如果1代表YES，0就代表NO，本质上所有的机器学习都是学习和执行两个过程。

深度学习真正在学术界兴起可能是 06 年左右，但是人工神经网络这项技术的出现已经有40多年了，而且核心技术没有得到本质性的革新。到底为什么有这次兴起，有几个大的变化，第一是数据量的变化，数据量的变化有一个重要前提就是手机的出现，比如说图片，大家可能就意识到，原来我们用U盘把单反相机里的照片拷到电脑上，照片数量是非常少的。第二，出现了可能是美国股价上涨最快的一家公司，NVIDIA，它是卖GPU的，GPU结构特别适合深度学习，提供了足够的计算力去处理数据并训练算法。第三，现在有了一些新的突破性算法。

印奇：深度学习为什么是最特别的机器学习算法，比如你是一个博士，花十年的时间，把每个环节都学习过一遍基本上就毕业了，并且你获得的这个系统可能比原来的系统好1%，但是这就导致这些博士在他这十年的时间里面，都聚焦在一个具体问题上，这就是为什么之前任何一个做机器学习的人，基本上只能在一个领域里面发展。但是深度学习最重要的学习要点就是端到端，意思是原来这条流水线里面可能有十个环节，现在我给你一个最粗暴的方法，你只要把这个数据稍加纠正地丢进去，机器就会给你一个最终的结果，所有的中间环节都不用管。

深度学习其实就是把原来科研的脑力创造性劳动，变成一个相对可以规模化生产的劳动，所以深度学习把技术门槛降低了，但这同时也是深度学习公司的一个焦虑点。从06年开始到现在，十年时间，深度学习这个行业里有价值的论文不超过10篇，你把过去十年的论文读完，基本就已经掌握了深度学习的精髓。而且三年之后，你会发现这些结论都是数据量不够大的情况下一个阶段性的状态，当数据量足够大的时候，其实最简单的结构和网络，就能有最好的结果。因为回到物理的世界，一定是最简单的东西累积起来，变成最复杂的东西。

我预测未来两年左右，随着开源和黑盒化，深度学习会变成一个标准型行业。但是这个行业的竞争跟数据有千丝万缕的联系，所以它会有自己的技术壁垒。

比如说我有一个系统，这里面有十个环节，整个系统的精准度是所有环节乘起来的。比如说第一个环节是90%的精准度，第二个环节是90%精准度，最后系统的精准度就是81%。当年，如果我们把一套系统从60%调到90%，可能用了很长时间，并且尝试很多方法，最后你发现这些方法在90%到100%的时候不再适用了，因为你可能已经通过这个方法把所有可能的提升空间都已经压榨完了。但是深度学习给你某种理论上的可能性：只要你的数据量在源源不断地变大，你从90%到99%，从99%到99.9%，都可以用同一套方法。这是一个简单的空间覆盖逻辑，如果在一个大数据的空间里面，这个空间就像一个球，这里有个点，那里有个点，当数据量足够大的时候，这个空间会非常密闭，这时候你要找的答案就会通过一个搜索逻辑来找到，所以连续性数据非常重要。这是一个工业生产非常重要的前提，因为精准的技术除了搜索和推荐的逻辑，大部分都是识别逻辑，当你要给到YES或者NO的时候，基本上的精度要在99.99%以上，用户在实际体验中才会认可这项技术。

如果这个空间大数据球，有一块是漏的，那概率这件事就没有太大意义。所以技术最后会变成一个数据工程，重要的是你怎么把这个数据变得非常完整。

唐鹏飞：给大家讲讲什么是识别，什么是验证。

印奇：我们以人脸识别为例子，验证的逻辑可以说是1：1，比如我拿一张余力的照片，我就问它一个问题，这个人是不是余力？它只是给我一个 YES 或者 NO 的回答。而识别相当于说我给你一张照片，你告诉我他是谁，这是一个 1：N 的逻辑，N 可以变得越来越大。N 如果是家庭机器人，它可能只用识别出家庭里的 6 个人，如果我们去抓逃犯，一般的规模在一百万到三百万之间，地铁口出现一个人，我要在这一百万到三百万的数据库里找出他是谁，相当于做了 N 个一个 1：1 的比对。

识别这个领域里面，大家有不同的切分方式：图像识别、语音识别等等，但其实你可以把所有感知类的东西归为一类，这些东西非常相似，给你一个信号，然后你去识别它。现在翻译这件事情变得非常难，并不是难在前面的识别，而是难在后面的理解部分，因为大脑皮层最后端形成语言，它的机制跟前端机制很不一样。人类现在对大脑研究知道的东西非常少，对大脑里最新出现的东西，还没有理解，对大脑最古老的部分也不理解。识别这个东西其实是最古老的，因为你看猫、狗、苍蝇都有识别。感觉类的东西，跟自然演进很不一样，我自己把它叫交互智能，比如微软小冰机器人，它是交互发生的，这个系统好不好，是看交互感，这种智能它的数据的滚动性非常好。所以你做一个类似表现的机器人，识别一定要达到很高的精度，用户非常容易用，用户量一上来，数据量就会急剧增加。但如果是静默智能，它默默地看着你，什么都不表达，你也不知道它到底是懂还是没懂，那么它的数据搜集和商业模式都会非常复杂。

印奇：深度学习最本质的其实是这两点，一个是端到端，相当于在复杂度上降低了，另一个就是连续性数据，这些数据是让技术可以实现规模化满足工业要求，这两个东西把机器学习变成了一个相对标准化的东西。深度学习的核心能力是：算法、数据和计算能力。基本上现在所有偏技术的AI创业公司，都在这三个点上找不同的突破口。

在技术这部分我最后提炼三点。

第一点，深度学习有三要素：算法、计算力和数据。

第二点，深度学习的特性是端到端和持续学习。

第三点，其实想给大家一个简单的概念，深度学习本质上是个模糊智能+足够大的数据。其他所有情况下，都叫做统计匹配。当你衡量一个数据的时候，其实有两个方面：一个维度是这个数据点本身有多少个维度；另一个是有多少样本量，这两点在深度学习里至少要到两三个数量级以上，比如说这是一千维的数据点，这里面至少有1000×10³的数据量，才足够大。

坦白来说一千个维度是很基础的，因为在一百维以内，人就可以给每个维度设计非常好的规则。这一千维还有一个前提是输入，比如我的输入是图像，人不知道怎么来抽取这一千维的数据，这种情况下，深度学习是最好的办法。

黄卫新：这一千维是人去定义的，还是机器去学习的？

印奇：是机器自己学出来的，比如你输入一个东西，他学出一个漏斗，说这里大概有一千维的东西，最后再给出一个结果。

唐鹏飞：目前深度学习的运算极限是什么？比如说现在有60亿人的人脸要识别，这样带来的整个识别网络参数的规模，会不会超出我们现在计算机的能力？

印奇：我的判断是不会。我们现在大概参数一两亿，并且在持续增长，计算力一定不是最本质的问题，它可能只是你未来商业化过程中，影响成本的问题；但是完成60亿人的人脸识别一定不是算法本身的极限。

记得要回答篇首的小问题，如果在今天的内容中你有任何疑问或者不懂的地方，也可以给我留言，我们会尽力为你解答。
在接下来的推送中，我们会介绍AI技术公司所面临的商业困惑，希望你可以从神聊会中，找到灵感。
回顾请戳：
我们在“数据智能”上做了一次艰难的探索

-To Be Continued-

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。