张钹院士：从大语言模型到通用人工智能

来源：图灵人工智能

转自：人工智能学家

张钹

计算机应用专家，中国科学院院士，清华大学教授，清华大学人工智能研究院名誉院长，长期从事人工智能、人工神经网络和遗传算法等理论研究，以及这些理论在模式识别、机器人和智能控制等领域的应用研究。

如何从大语言模型走向通用人工智能，这条路线可能带来哪些影响？

1月16日，中国科学院院士、清华大学人工智能研究院院长、清华大学计算机系教授张钹在“智谱AI”2024年度技术开放日上，带来了《从大语言模型到通用人工智能》的主题分享。

怎么来理解现在爆火的生成式的模型？

张钹院士表示，必须从生成式大模型具有的四个特征来分析它，这四个特征是“三大一缺点”。

就是强大的生成能力，强大的迁移或者推广能力以及强大的交互能力，最后一个大缺点，幻觉。

具体来说：

1.强大的生成能力：指的是语言模型能够在开放领域生成多样化、连贯且类似人类的文本。这种能力超出了人们的预期，被认为是模型达到一定规模后出现的“涌现”现象。

2.强大的迁移能力：模型能够在给定少量样本的情况下，将知识迁移到不同领域，完成新的任务。这种能力同样在模型规模达到一定程度后才会出现。

3.强大的交互能力：模型能够与人类进行自然语言对话，这在过去是难以实现的。这种对话不受领域限制，使得人机交互更加流畅。

4.幻觉：这是模型的一个主要缺点，指的是模型可能会生成看似合理但实际上并不真实或有意义的输出。

张钹院士解释了大语言模型如何通过三个关键技术实现这些能力：

巨大的人工神经网络：使用深度和宽度都非常大的网络结构，如GPT-3和GPT-4 Turbo，这些网络能够处理大量的文本数据。

巨大的训练文本：使用大量的人类知识文本进行训练，这些文本数据量达到了数十TB。

Next token prediction：通过自监督学习的方法，模型能够预测下一个词，从而生成连贯的文本。

通过这些技术，模型构建了一个连续的语义向量空间，使得输入的文本序列能够转换为向量，并在该空间中进行处理，最终生成输出文本。

当然，想要实现高质量的文本生成和人机对话，离不开预训练、推理和对齐。

这是向通用人工智能迈出的第一步，取得了两个重大突破:

能够生成人类水平的文本，'说人话'。

实现了人机自然语言流畅对话。在ChatGPT中，我们可以用纯自然语言与机器对话，这在过去是难以实现的，而且这种对话不受领域限制。

这两个突破将推动人工智能技术获得进一步发展。

迈向通用人工智能第二步工作，就是在GPT-4的基础上构造一个智能体，使其能够与数字世界交互。

为此必须实现两点：一是使其具有多模态处理能力，把感知能力加入进来。通过多模态生成，可以完成感知能力的补充，完成闭环。

二是增加其交互能力。过去第一步走的时候，主要用了语言模型跟人类交互的能力，而大模型还可以与环境尤其是数字环境进行交互。通过这两点的组合，可以实现第二步目标。也就是说机器可以与外部工具和环境结合，发挥问题求解能力。

它不仅可以回答问题，还可以帮助解决问题，解释和执行复杂指令，制定计划来达成预定目标。与数字环境结合后，它可以通过反馈学习，判断自己的行动正确或错误。

第三步发展非常重要，目前GPT-4最多只能与数字世界交互，通用人工智能最终必须使其能与物理世界交互。这就缺少了一个关键环节——机器人。要与世界沟通和采取行动，就需要机器人。因此，“具身智能”（Embodied AI）的提出很关键，它可以构建一个完整的智能体，既有感知能力，又有像人类一样的思考和行动能力。这将形成一个完整的智能体。

如果实现了这一步，就可能构建出一个拥有感知、思考和行动能力的通用人工智能体，实现从专用走向通用的突破。

这个大模型发展下去，对我们产业，对我们职业会产生什么影响？

张钹院士认为，大语言模型的发展必将对产业和职业产生深远影响。

一方面，它将提升效率和质量，对多数行业起到互补作用；另一方面，也会替代部分工作。但大语言模型本身存在的缺陷决定了它不可能完全取代人类。总体来看，大语言模型与人类还是互补的关系。而人工智能这样发展下去，最主要的一定会推动经济的发展。

为把握机遇，张钹院士呼吁要紧密结合科研、技术创新和产业发展，开发通用的人工智能软硬件，推动产业进步。尽管道路艰难，但大语言模型已经为通用人工智能开辟出一条道路，其影响还会持续显现。

以下为张钹院士演讲内容

（内容有调整）

大家好，这个会议主要围绕大模型，我想所有的听众呢，都是冲着大模型来的，因此我今天就讲大模型的内容。

讲三个问题。

一个我们如何从这个大语言模型走向通用人工智能，这条路应该怎么走，我们会走到什么地方？

第二个，这个大模型发展下去，对我们产业，对我们职业会产生什么影响？

最后，讲一点有关人工智能产业的一点思考。

大家知道，我们人工神经网络是1947年开始的，当时主要作为鉴别器（分类）使用，也想把它作为生成器来生成，结果遇到很大的困难。

这个问题到2014年干出来以后，才得到一定的解决，特别是2017年Transformer转换器提出来以后，就像打开这个闸门，生成式的人工智能迅猛地发展。

我们为什么要搞生成式的人工智能，大家常常引用Richard Feynman 说的一句话，“如果我们不能创造它，我们就不可能理解它。” （What I cannot create，I do not understanding.）

所以我们通过生成式的人工智能，就是要打开理解这个世界的大门。

我们怎么来理解生成式的模型？我们必须从生成式大模型具有的四个特征来分析它，这四个特征是“三大一缺点”。“三大”什么大呢？

就是强大的生成能力，强大的迁移或者推广能力以及强大的交互能力，最后一个大缺点，幻觉。我想从这个三点出发，我们才能够真正地认识大模型。

所谓的强大的生成能力，我们现在先说语言模型，就是强大的语言生成能力。这个强大主要体现在它能够在开领域生成多样性连贯的类似人类的文本。也就是说，它能够在开放的范围内，流畅地产生出多样化且逻辑自洽的语言表达。

这一点是大大出乎大家意料之外的，大模型没有达到一定的程度，不可能出现这个现象，我们目前还把这个现象说成是涌现。

第二个是迁移能力，就是只要给它少量样本，它就能将知识迁移到不同的领域，这也大大出乎了人们的意料。为什么只给它几个样本，它就能完成新的任务呢？这种能力也只有在模型达到一定规模后才会出现。

我们想一想，利用这两种能力发展出来的ChatGPT，它是通过预训练、推理和对齐这三个步骤实现的。那么它是如何做到这一点的呢?

主要是三个原因。

第一个原因，我们用了一个巨大的人工神经网络来完成这个任务。这个巨大的神经网络，我们把它叫做转换器。这个巨大大到什么程度呢？

四个档。一个非常之深，深度达到了96层。第二个非常之宽，GPT-3 宽度达到了2048个tokens。现在GPT-4 Turbo，达到128000个tokens。换句话讲，300多页的文本可以同时输入，这是它的宽度。

GPT3.5 的规模达到了1750亿个参数，它的硬件需要285000个CPU，1万个GPU来完成，这是我们利用的一个技术，巨大的神经网络。

第二个技术就是巨大的训练文本，我这里特别讲的用Text不用数据，美国人最早用的是用巨大的数据，现在美国人也改口了，把它说成是巨大的文本数据，Text Data。

请大家注意，我这里讲的text肯定不是指这个数据，因为text大量描述的是人类的知识，那么用得多少呢？这个大家知道了，现在已经达到了45TB，Google已经达到50TB是吧。

第三个使用的是Next token prediction，自监督学习。

靠这三项技术，我们做到了刚才讲的三大能力。怎么做到的？

实际上，它构造了一个连续向量的语义空间，这个连续向量的语义空间怎么构造呢？就是用了LLM加上AI alignment来构造，这样就使得我们用一串的10串的输入，变成token，最后变成向量，在连续向量空间进行处理，又输出了一大堆词串。

正是借助这三项技术，我们实现了前面提到的三大语言生成能力。

具体来说，是通过LLM（大语言模型）结合AI alignment构造了一个连续的语义向量空间。这样就使得我们用1串，10串的输入变成token，最后变成向量，在连续向量空间进行处理，又输出了一大堆词串。

如果大家了解LLM（大语言模型），就会知道它通过预训练生成了K和V，这是它的记忆单元。然后在推理阶段，我们将问题Q输入模型，Q与K、V进行计算，输出对下一个词的预测。这就是LLM的整个工作流程。这种过程完全改变了我们处理语言的方式，使机器能够像人类一样进行思考。

当然，还需要最后一步对齐技术。经过对齐后，可以大幅降低错误率。因为LLM本身只能生成类人语言，不能保证正确性。只有通过对齐，才能确保生成内容的正确性。

这是我们迈出的第一步，取得了两个重大突破:

能够生成人类水平的文本，'说人话'。

实现了人机自然语言流畅对话。在ChatGPT中，我们可以用纯自然语言与机器对话，这在过去是难以实现的，而且这种对话不受领域限制。

以前我们一点也做不到这两点，现在不仅可以在开放领域做到，而且对话不受专业领域限制。这两个突破非常重大，将推动人工智能技术获得进一步发展。

举一个简单的例子，让ChatGPT以一个小学生的身份写一篇关于会飞的房子的文章。

我们可以看到，它表现出了很强的想象力，能想象房子长出翅膀来，飞到云端，降落在各种地方，看到的也都是童话世界，面包长在树上等等。这完全是人类水准的文本生成。这一点实际上表明，人工智能向着通用人工智能迈进了一步。

以前的人工智能都受限于三个“特定”：特定领域、特定算法、完成特定任务。人工智能只能在限定的领域内工作，受限于特定算法，并完成特定的预设任务。这三个特定都使其受限于某一应用领域。

而生成式模型完全改变了这种模式。我们使用通用的转换器（Transformer）模型，在开放领域内生成各种任务，完成多种任务，不受领域限制。这表明人工智能正在向第三代人工智能发展，也证明了行为主义道路是可行的。

我们目前正在进行的第二步工作，就是在GPT-4的基础上构造一个智能体，使其能够与数字世界交互。

为此我们必须实现两点，一件事就是要使得它能够接受多模态，就是要把感知这部分加进去，这就是我们现在说的这个多模态生成。通过多模态的生成，我们可以解决了感知的问题，才能够把这个环给闭起来。

我们知道，美国研发的CLIP模型实现了图像和文本的对比学习。大语言模型解决了文本的语义处理，如果把图像和文本关联起来，机器也能处理图像内容。CLIP已经展示了非常好的效果，无论是在图像分割还是识别上，都实现了重大突破。

过去机器只能对图像进行分类，停留在感觉层面，而很难实现真正的感知。有了大语言模型把图像和文本关联后，这一问题得到很好的解决，机器现在可以真正识别物体。

然后我们还要增加交互能力。我们过去第一步走的时候，我们主要用了语言模型跟人类交互的能力，而大模型还可以与环境尤其是数字环境进行交互。通过这两点的组合，我们可以实现第二步目标。也就是说机器可以与外部工具和环境结合，发挥问题求解能力。

它不仅可以回答问题，还可以帮助解决问题，解释和执行复杂指令，制定计划来达成预定目标。与数字环境结合后，它可以通过反馈学习，判断自己的行动正确或错误。这是ChatGPT等第一代模型无法做到的。我们期望GPT-4可以达到这个目标，类似ReAct和CogVLM也在朝这个方向发展，不仅可以推理，还可以采取行动。

这里举出了例子，说明仅具备推理能力或仅具备行动能力都无法完全解决问题，必须推理和行动能力的结合。

比如对于较复杂的推理问题，GPT-4可以很好地处理。我让GPT-4计算一个脑筋急转弯的题目：我有10只碗，为开派对向张家借5只、向李家借5只，派对后我把碗还给他们，那么我手里还剩多少碗？GPT-4起初误解为0只，后来“仔细想了想”，推理出我还剩10只自己的碗。这类复杂推理只有GPT-4能完成。针对复杂问题求解如鸡兔同笼题，它也能很好解决。

第三步发展非常重要，目前GPT-4最多只能与数字世界交互，我们最终必须使其能与物理世界交互。这就缺少了一个关键环节——机器人。要与世界沟通和采取行动，就需要机器人。因此，“具身智能”（Embodied AI）的提出很关键，它可以构建一个完整的智能体，既有感知能力，又有像人类一样的思考和行动能力。这将形成一个完整的智能体。如果实现这一步，其结果将是难以想象的。因此，现在就必须把机器人技术配合上来。

那么大家看到了美国人就做人形机器人，我觉得不一定要做人形，因为很多地方使用的，就是手就可以了，或者脚就可以了。不一定把硬件搞得非常复杂，所以我的主张就是说，你有一定的硬件作为它的基础，我们进行研究，我们要研究什么问题？研究强化学习，这是今后人工智能的方向，而且这个强化学习如果再进步，我们过去所有的机器，做的都是外部驱动的，我们如果能够走到内部驱动，那就是能够非常接近人类智能。

接下来是人工智能发展下去，会产生什么影响？

这个我引用这个高盛的全球投资的一张图，这张图告诉我们说，人工智能这样发展下去，最主要的一定会推动经济的发展。

高盛的分析显示，人工智能每年可带来1.3%的全球经济增长，发达国家可能达到1.5%，中国大约0.9%。这些数字可能不够准确，但人工智能促进经济发展的趋势是确定的。因此，中国要发展经济，就必须推动人工智能技术发展。

第二句话，看它究竟对我们产业，各个行业产生什么影响？

有人担心人工智能会代替人类工作，其实这份报告分析了各行各业，得出结论是人工智能对多数行业有利。左侧深色表示不易被自动化替代的体力劳动；相反，右侧浅色表示可被部分替代的脑力劳动，但比例不会超过1/3。大部分工作将是人机互补，提高工作质量和效率。

为什么大模型难以完全替代人类？是因为当前人工智能模型存在天花板。

就是说大模型所有的工作都是外部提示的，不是它主动做的，而且它是在外部提示下，用概率的预测的办法来完成它。人类完全不是这样，所有工作基本上是在内部驱动下，内部意图的驱动下，在意图的控制下，或者意识的控制下来完成的，这就表现了大模型的三个天花板。

第一，质量不可控。大模型的质量无法人为控制，输出质量不稳定。

第二，生成结果存在正确错误，因而不可信。

第三，不鲁棒。输出很依赖输入提示词，相同内容不同提示词会产生不同解，给出不同回答。

综上所述，当前大模型存在的三大问题(不可控、不可信、不鲁棒)是根本性的缺陷，随着模型规模的增加也难以解决。

前几天我看了图灵奖得主 Joseph Sifakis 在清华做的报告，他也是这个观点一样的，他就画出来这个智能化三个层次，他认为目前来讲，机器大多数作为辅助，那么第二步走向自动化，自动化的意思是什么，把部分的监控任务交给机器。

最终它叫做自主化，把所有的控制、监控都交给机器，这个他觉得很难，最主要的原因就刚才我们讲到不可信，机器不可信，所以总体来讲我们应该看到今后的最主要的内容，就是我们把机器作为我们最好的助手，当然相当一部分工作会被它代替，但是这个要分领域的，不是所有领域都是这样。

这个总结一下，实际上就是我们当初提出来的发展三代人工智能的思想。

第三代人工智能的最主要思想是三个，一个我们必须要建立人工智能的可解释与鲁棒（稳健）的AI理论与方法。

因为到现在为止这个理论还没有建立起来，这就是人工智能所以缓慢和曲折的原因。为什么理论建立不起来？就受到三个特定的限制。因为过去你只能在特定领域，利用特定模型去解决特定的任务，根本你就在特定情况下做的事，怎么可能建立一个通用理论呢？大模型的出现给我们建立这个理论提供了可能性，因为你不走向通用，你不可能建立通用理论，所以现在这个有可能了。

那这种情况下，我们才有可能得到安全、可控、可信、可靠和可扩展的人工智能技术。换句话讲如果这个理论没有建立起来，我们人工智能的技术永远是难以相信。

三是推动AI的创新应用与产业化，这个我们特别强调知识的作用，这个就必须充分发挥这四个要素，这个四个要素肯定都要发挥知识、数据、算法、算力，但是我们最主张的，就必须重视知识作用，所以我们把知识放在第一位。

人工智能发展可以分为三个阶段。第一代人工智能试图通过建立语义符号系统来模拟人类思考，包括推理、决策、诊断、设计、规划和创作等能力。这体现了符号主义和行为主义的主张，即构建一个语言和符号的理想空间，在这个空间内模拟人类思考。但是这种模型存在一个重大缺陷，即“符号接地”（the symbol grounding problem）问题，无法与物理世界联系，系统都是人为定义的，与外部环境脱节。

第二代人工智能试图通过构建特征向量的连续空间来实现感知，可以利用大量数据进行训练。但是其最大问题是与认知层面脱节，仅能对物体进行区分，无法真正理解和认知。

为克服第一代和第二代人工智能的局限，我们在第三代人工智能中提出构建“准语义向量连续空间”，也就是大语言模型构建的空间。这打通了三种空间，才可能建立一个真正的智能体，实现思考、感知和行动的统一。大语言模型的出现使这一目标看起来可能实现。但是，仍有很多问题有待解决，需要大量工作。

总之，大语言模型为实现真正的人工通用智能提供了可能性，但距离最终目标还有一定差距。

最后，我就谈两点思考。

首先，尽管人工智能目前正处于稳步发展阶段，甚至可以说是快速发展，它对各行各业产生了巨大影响。然而，我们也面临着许多不确定性，因为人工智能的发展往往是不可预测和不可控的。例如，我们目前对某些现象的解释仍然停留在“涌现”这一概念上，这实际上意味着我们尚未完全理解其背后的机制。

我认为中小型企业不应仅局限于科研，而应将科学研究、技术创新与产业发展紧密结合。智谱AI在这方面做得相当出色，它不仅重视研究工作，还通过组织此类讨论会，展示了对科学研究的重视。这种产学研结合的模式，特别是在中国，有助于产业的健康发展。

此外，我认为现在是抓住机遇，发展人工智能产业的关键时期。过去，人工智能产业受到特定领域和任务的限制，难以实现大规模发展。但现在，我们有机会开发通用的硬件和软件。

总结起来来讲，通向通用人工智能道路还是很艰难的。但是不管怎么说，大语言模型为人工智能的发展打开一条通向通用人工智能宽广的道路。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。