刘江：ChatGPT和GPT-4的底层逻辑，很多人都没有真正看懂

刘江老师曾是美团技术学院的院长，是美团技术同学的老朋友了。他之前也是北京智源人工智能研究院的副院长。智源研究院2018年成立，从一开始就是对标OpenAI的，所以他跟踪研究OpenAI和ChatGPT已经好几年了。

（合影）

近期，刘江老师在大咖沙龙里作了题为《ChatGPT技术发展及未来展望》的分享。本次沙龙由美团离职员工社群三块钱（ID:exmeituaner）主办。以下摘录了刘江老师此次分享的大部分内容。

今天很高兴和大家交流我自己学习ChatGPT的一些心得。现在大家对ChatGPT都是盲人摸象，很难看到全貌，我今天分享的也是一家之言，可能很多地方说的都不对，仅供大家参考。

（茶歇由本来生活李敏同学赞助）

先说一个判断，我认为ChatGPT尤其是这几天GPT4，可能是我们有生之年见到的最具革命性的通用技术创新，它预示着智能革命的开始，所带来的产业机遇和挑战都将是极其巨大的。人类历史上可能只有工业革命能与之相提并论：

-工业革命实现了大多数人从农业到工业的转变；

-智能革命将实现大多数人从劳动者到消费者、自我兴趣探索者的转变。

因为变化太大，它的底层逻辑并不容易看懂。

我建议同学们首先都要去使用它，才能逐步理解它，然后大家一起多交流，才能打破盲人摸象的问题。这也是我和几位专家一起在图灵建了共学营的初衷。

然后更重要的是，我们所有人都要退后一步，打破所有习以为常的假设，重新思考和评估一切。

（自由交流环节）

ChatGPT到底是什么？应该怎么理解？

下面我会从三个角度来分析。首先我们来看ChatGPT里的Chat。

（分享中的刘江老师）

第一个角度：Chat=下一代自然交互界面和主要入口

我有一些从事AI科研的朋友，他们的专业水平其实很好，但对ChatGPT进行一番研究（往往是不太充分的研究）后的反应是：ChatGPT好像没有太大的技术创新啊？不就是把模型搞大了，参数更多嘛？用的基础技术都是之前别人搞的嘛。其实也不是他们这么说，连深度学习三巨头之一、图灵奖得主Yann Lecun也是这样讲的。

他们可能没有意识到，其实ChatGPT仅仅在交互上的创新就会对产业格局乃至社会产生巨大影响。这也是我对过去几十年信息技术行业最重要的观察：价值最大的技术，往往都改变了大众交互方式。

我们来回顾一下人类和机器交互的历史。

其实在最早的人机交互可能是手动开关和打孔机。后来产生了一个里程碑式的交互进步：

第一代交互方式：CLI命令行界面（Command-Line Interface）

人们开始可以通过键盘、命令、显示器与机器进行交流。但这必须是受过训练的技术人员才能完成的，需要记忆很多命令和选项，对普通人门槛很高。

于是后来，更易用的交互方式诞生了：

第二代交互方式：GUI图形用户界面（Graphic User Interface）

到目前为止，我们大多是用的还是GUI，比如Windows、Mac电脑或苹果、安卓手机，我们通过屏幕上的窗口、菜单、图标等等，用鼠标、手指、动作与之互动，完成与机器的交流，普通用户稍加学习都能操作。这个发明实际上是目前仍然市值最高的两家IT公司——苹果和微软的基础，乔布斯和盖茨先后从施乐公司的PARC研究院偷师，学到了这项技术。

但这还是有一定门槛的，还是得学。尤其输入法就是个很大的障碍。很多老人和不识字的小孩子就不容易学会。输入法没问题的用户，使用软件的时候，还是要在各种菜单里寻找自己需要的功能，设计画图类的工作，还要通过鼠标或者触摸，一点一点的拖啊拽啊改啊，非常低效。

但今天ChatGPT普及之后，将使我们进入新一代交互方式：

第三代交互方式：NUI自然用户界面（Natural User Interface）

我们人之间每天互相交流就是通过听和说，这就是自然用户界面。自然界面是人人生来都会的，不用学，是因为它本来就是我们互动的方式。

虽然ChatGPT现在还主要是靠打字，但只是过渡。因为它什么都听得懂，接得住，是天生应该通过语音来使用的。我相信很快OpenAI推出的独立ChatGPT App，会支持语音。

我这么讲了以后，大家意识到为什么有些敏感的观察家会说ChatGPT将杀死搜索引擎了吗？对，搜索引擎还是第一代交互方式——命令行界面，是上古时期的用户体验。基于语音的自然界面，对它是一种跨代、降维打击。未来，ChatGPT也很容易多媒体化，会支持图片、视频、音频，这些方面的研发都已经在最先进的实验室里（比如OpenAI和智源）如火如荼的进行中了，而且进展很快。

最终，与之匹配的智能设备会是什么？之前小扎（指扎克伯格，Meta创始人）认为是VR，现在看不太像，他自己也承认现在AI更重要了。

我觉得AR眼镜（能看能听的）最有可能成为取代手机的主流计算设备，当然爱美的女同学可以戴隐形眼镜。我戴着眼镜进来会场一扫，哦，这是我的老朋友张义，这是三块钱搞的活动，每个同学他都能认出来，而且记住。它也能记录所有我说的和我听到的话，我看到的事情。第一人称视角，跟钢铁侠里面的贾维斯一样。这样系统会和我是一样的体验，获取我接受的所有数据，它作为一个个人助理，会最懂我，也能给我最贴近需求的服务。

最懂我们的数字助理将成为我们获取信息的主要入口。那个时候，手机就消失了，App可能也都不需要了。要知道，现在的科技巨头大多是手机和App公司。所以这里的颠覆是巨大的。

我们再来看ChatGPT里的GPT。

第二个角度：GPT=通用智能大模型AGI

ChatGPT到底是什么？中国投资圈喜欢说AIGC（AI生成内容， AI Generated Content），国外喜欢说GAI（生成式AI，Generative AI），其实这些表述都有一定的误导性。正确的表述应该是AGI（Artificial General Intelligence）或者通用人工智能大模型。

OpenAI从一开始就是要做AGI的，因此他们CEO之前在Twitter上对Generative AI这个词大行其道表示过不满。

为什么呢？AGI或者说通用人工智能，是指人工智能系统能够干普通人能做的任何事情，并不只是生成。GPT的大思路其实是认为人类智能各种表现，本质上都是通过生成完成的，都是根据已有的一些信息，产生下一个词、再下一个词。比如我们所谓的理解，其实是收到一些信息后，生成一段自己的话，表示类似的意思。仔细想想，情感、意识、自动驾驶，其实也是这样，我们之前认为的很神奇的人的行为，这么看，也并不是那么神奇。

称GPT这样的技术为AIGC或者生成式人工智能，把这个大思路想小了。

这部分其实挺技术的，我来试着带大家理解其中最重要的思想脉络。

1. ChatGPT背后的大脑——GPT

仅仅有语音为主的自然用户界面是不够的，因为之前Siri、Alexa和小度之类的语音应用也火了一阵，但慢慢就没有太多人用了。

ChatGPT只是冰山一角，本身看上去似乎只是个交互界面。而且根据《纽约时报》报道，这个轰动世界的交互界面，是一个因为有竞争，团队停下手中的活，用了13天临时赶出来的一个产品。

它真正强大的，是底下巨大的通用人工智能模型——GPT（最新的版本是GPT-4了）。

什么叫模型呢？可以比较粗略地理解为一个函数。

比如我们在中学都学过的函数：y=ax+b，也可以叫它模型，这个模型只有两个参数：a和b。

GPT-4的参数量没有公布，但GPT-3的参数已经高达1750亿……大家想象一下，这该是多么复杂的函数，参数多到人已经无法理解也无法解释了。

为什么要把参数搞这么大呢？简单地说，就是因为自然界最聪明的机器——人脑也是这样的。

我们知道，人脑主要是由神经元细胞组成的，一个神经元大概长成这样：

除了绿色的细胞核部分，左边很多树枝似的叫树突，负责接收其他神经元的信号，右边长长的叫轴突，负责输出信号给其他神经元。这些突起之间通过突触传递信息。人脑大约有1000亿左右这样的神经元，100万亿个突触。就是这么简单的结构，一旦它们形成了一个复杂网络，就使我们每个人变得这么聪明，能学会很多东西，能产生感情，能思考，有自我意识，还能彼此合作……

现在最先进的人工智能系统（以ChatGPT和GPT-4为代表）和人脑类似，也是由许多人工神经元组成的。人工智能模拟人类的神经元，抽象成数学表达，就是下面这张图。有x输入（变量），w神经（参数），b神经元，a输出（输出也可以很多个）。大家看，是不是很像上面的大脑里的神经元？

先进的人工智能系统也是用很多很多这样简单的人工神经元组成的，当然里面细节非常多，有很高深的数学和计算机知识。

具体长什么样呢？ChatGPT和GPT-4都没有论文，找不到很直观的比较详细的架构图。我们用2012年的ResNet的图来感受一下。ResNet有152层，几十万神经元，总参数是6000多万。

这个分层示意图上的数字表示这一层上神经元的数量，比如最右边的1000、2048等。有些层上的数字比较小，需要将数字相乘，所以有些层神经元是上万的。

大家不要小看ResNet，这是我们中国人在这十几年人工智能领域最高成就，也是全世界都认可的，论文引用数已经接近16万了，非常恐怖的数字。2012年，当时在微软亚洲研究院的孙剑老师（去年不幸英年早逝，非常非常可惜）带着何恺明、张祥雨、任少卿一起，通过ResNet，第一次将计算机视觉的水平提升到超过了人类。

而2020年，第一个大模型GPT-3诞生，最近GPT-4出来，把语言甚至某种意义上把通用智能都攻克了。

GPT-3有几十亿个神经元，一共有1750亿个参数。参数和人脑的突触是对应的，所以GPT-3大致相当于人类大脑的千分之一水平。GPT-4的参数量没有公布，但从OpenAI负责人在此前采访的口气来看，很可能没有数量级的提升，更多是在原来规模上优化。

这是因为，千亿规模的大模型，潜力仍然还没有挖尽。那什么叫大模型呢？

2. 小模型与大模型

大家可能不知道，原来搞AI的专业工作者其实分工非常细的。甚至早几年大家一般不说我是搞人工智能的，而会说我是搞NLP（语言）、视觉、语音、机器学习的，比较新的结合商业需求又出来推荐系统、广告、调度、自动驾驶等等。而且往往还能分得更细，比如语言里有机器翻译、阅读理解、问答、文字生成……，就好像语文考试里面的不同题型，每种题型就是一门学科。

为什么分得这么细，因为具体做法都不太一样。简单地说，大家都在训练各种小的专用模型，而且模型规模都不大，几千万、几亿参数就了不起了。所以从现在来看都是小模型。

而大模型呢？GPT全名叫Generative PreTraining（中文意为生成式预训练，这是OpenAI自己的称法，而不是媒体更喜欢说的Generative Pretrained Transformer，那是Google的BERT论文里搞错了，才这么叫开的）。

第一代GPT是2018年6月发布的，参数量是1.17亿。

2019年2月升级为GPT-2，和同代Google搞的BERT都是10亿级参数的模型。

而2020年5月，GPT-3一下子干到了1000亿这级别上，提升了两个数量级。这是人类历史上第一个这么大规模的人工神经网络，也就是现在已经比较常见的“大模型”。

此外，还在网页（WebGPT）、图片（ImageGPT、DALL·E）、代码（CodeX）、音乐（Jukebox）、语音（Whisper）等方面也做了很多工作。

GPT系列论文的思路非常一致，就是尽量选择简单的架构，用更多高质量的数据、更多的算力训练出更大规模的模型，而且各个环节尽量减少人工干预。目的只有一个，模型能像人脑一样，更加通用，完成各种任务。到了GPT-3这个千亿模型，这个想法基本上实现了。

而现在ChatGPT、GPT-4这种更新的大模型出来，效果更是惊人，AI似乎什么语言任务都会了，而且理解和生成能力都特别强。GPT-4在主要人类识别人才的许多考试都能考到优等生的水平。

大模型为什么这么神奇？首先是我们前面讲到的，它和人类大脑的原理类似。更有意思的是，研究发现，大模型和小模型相比，真的有一些突变。

3. 大模型的突现能力

GPT-3和其他大模match型出现后，研究人员对比之前的小模型，发现有神奇的事情发生了，大模型突现出一些此前从未出现过的能力。

比如你让它做一个复杂的数学题，一开始它会给出一个错误答案。然后你可以说：错了，再仔细想想、一步一步来。咦，你发现它马上就改成按步骤来算，就算对了。这种能力骄傲思维链。

有研究人员总结出100多种这类能力。请注意，在10亿以及小几百亿参数的小模型里，是没有这种能力的，只有大几百亿的大模型才会出现。

所以，大模型真的有点像动物进化，我们知道鱼会游泳，鸟会游泳，狗的嗅觉很灵，猎豹跑得很快超级敏捷，但它们的大脑是没那么聪明的，远不如灵长类。这就是小模型和大模型的区别。神经元的数量还是极其关键的。

第三个角度：ChatGPT=AI时代的操作系统

如果说前两个角度分别是从用户和技术角度来看ChatGPT的话，我们接下来要从产业角度进行分析。

大家都知道之前信息产业最核心的部分一直是操作系统，PC时代是Windows，移动时代是iOS和Android。而且操作系统天然具有垄断性。芯片也很重要，但芯片相对被动，这也是为什么移动时代并没有出现统治性芯片公司的原因。

ChatGPT加上大模型不仅提供了交互界面，还提供了通用能力。而界面+通用能力，就构成了操作系统。

操作系统意味着什么？它不仅提供用户入口，而且所有的计算资源都是由它来管理。更可怕的是：过去的操作系统还不是智能的，ChatGPT是智能的操作系统，它会越变越强，可能具有终极性。

ChatGPT将是AI时代的操作系统，影响非常巨大。

我们中国是没有干成过操作系统的，操作系统一直在美国人手里。这一波如果不赶上，将错失AI时代操作系统。ChatGPT已经明确不对中国开放，未来再这样发展五年、十年，我们有可能成为一个相对低智能的社会。

在科学史上也有GPT这么一个缩写，正好是另一个解释：General Purpose Technology，也就是通用技术。比如电力、蒸汽机、电脑、互联网……它们都是通用技术。它们的出现影响了各行各业，本身还能持续改进，会发展出更多与之匹配的互补性技术，引发连锁创新。

我们都知道之前的通用技术带来了怎样的巨大影响。

机遇和挑战同在，我希望中国更多的有识之士、有能力的人，投身于这个方向，拥抱新时代。

作者 | 刘江老师

文字整理 | 牛哥

编辑|雷锋哥

场地合作| 氪空间学院8号创新中心

礼品赞助|本来生活李敏美团袋鼠团建

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。