一文读懂未来趋势AI Agent：人工智能代理

2024年以来，AI Agent多次被提起。

近日，OpenAI 的联合创始人、特斯拉自动驾驶 AI 部门的前负责人安德烈·卡尔帕西（Andrej Karpathy）分享了他对 AI Agent 的潜力和未来挑战的见解。在他看来，AI Agent 的吸引力在于 OpenAI 和 DeFi 等机构尚未处在技术的前沿，市场里的其他玩家有着赶超的机会。虽然 OpenAI 在大模型上比别人快一步，但在 AI Agent 领域，当下研究都处在同一条起跑线上。

01 什么是 AI Agent？

概括来说，AI Agent（人工智能代理）是一种能够感知环境、进行决策和执行动作的智能实体。

不同于传统的人工智能，AI Agent 具备通过独立思考、调用工具去逐步完成给定目标的能力。比如，告诉 AI Agent 帮忙下单一份外卖，它就可以直接调用 APP 选择外卖，再调用支付程序下单支付，无需人类去指定每一步的操作。

Agent 的概念由 Minsky 在其 1986 年出版的《思维的社会》一书中提出，Minsky 认为社会中的某些个体经过协商之后可求得问题的解，这些个体就是 Agent。他还认为Agent应具有社会交互性和智能性。Agent的概念由此被引入人工智能和计算机领域，并迅速成为研究热点。但苦于数据和算力限制，想要实现真正智能的 AI Agents 缺乏必要的现实条件。

浙江大学一篇探讨人工智能体的论文中将 AI Agent 定义为：一个运行于动态环境中的、具有较高自治能力的实体（即自治体，可以是系统、机器，也可以是一个计算机软件程序等等）。其根本目标是接受另一个实体（即主体，可以是用户、计算机程序、系统或机器等）的委托并为之提供帮助或服务，能够在目标任务的驱动下主动采取包括学习、通讯、社交等各种手段感知、适应其外在环境的动态变化，并作出适当的反应。

简单来说，AI Agent 以大模型为核心驱动力，在此基础上增加了规划（Planning）、记忆（Memory）和工具使用（Tool Use）三个关键组件，以提高大模型在面对复杂任务时的处理能力。

在人工智能领域，这一术语被赋予了一层新的含义：具有自主性、反应性、积极性和社交能力特征的智能实体。

AI Agent，它被设计为具有独立思考和行动能力的AI程序。你只需要提供一个目标，比如写一个游戏、开发一个网页，他就会根据环境的反应和独白的形式生成一个任务序列开始工作。就好像是人工智能可以自我提示反馈，不断发展和适应，以尽可能最好的方式来实现你给出的目标。

02 AI Agent 拆解：大模型、规划、记忆与工具

一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6 月，OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客，认为 AI Agent 可能会成为新时代的开端。她提出了 Agent = LLM 规划技能记忆工具使用的基础架构，其中 LLM 扮演了 Agent 的“大脑”，在这个系统中提供推理、规划等能力。

2.1 大模型规划：Agent 的“大脑”，通过思维链能力实现任务分解

LLM 具备逻辑推理能力，Agent 可以将 LLM 的逻辑推理能力激发出来。当模型规模足够大的时候，LLM 本身是具备推理能力的。在简单推理问题上，LLM 已经达到了很好的能力；但在复杂推理问题上，LLM 有时还是会出现错误。事实上，很多时候用户无法通过 LLM 获得理想的回答，原因在于 prompt 不够合适，无法激发 LLM 本身的推理能力，通过追加辅助推理的 prompt，可以大幅提升 LLM 的推理效果。在《Large language models are zero-shot reasoners》这篇论文的测试中，在向 LLM 提问的时候追加“Let’s think step by step”后，在数学推理测试集 GSM8K 上的推理准确率从 10.4%提升到了 40.7%。而 Agent 作为智能体代理，能够根据给定的目标自己创建合适的 prompt，可以更好地激发大模型的推理能力。

对于需要更多步骤的复杂任务，Agent 能够调用 LLM 通过思维链能力实现任务分解与规划。在AI Agent 的架构中，任务分解规划的过程是基于大模型的能力来实现的。大模型具备思维链（Chain of Thoughts， CoT）能力，通过提示模型“逐步思考”，利用更多的计算时间来将困难任务分解为更小，更简单的步骤，降低每个子任务的规模。

通过反思与自省框架，Agents 可以不断提升任务规划能力。AI Agent 可以对过去的行为进行自我批评和反思，从错误中学习，并为未来的步骤进行完善，从而提高最终结果的质量。自省框架使 Agents 能够修正以往的决策、纠正之前的失误，从而不断优化其性能。在实际任务执行中，尝试和错误是常态，反思和自省两个框架在这个过程中起到了核心作用。

2.2 记忆：用有限的上下文长度实现更多的记忆

对 AI 智能体系统的输入会成为系统的记忆，与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型，如感觉记忆、短期记忆和长期记忆。而对于 AI Agent 系统而言，用户在与其交互过程中产生的内容都可以认为是Agent 的记忆，和人类记忆的模式能够产生对应关系。

感觉记忆就是作为学习嵌入表示的原始输入，包括文本、图像或其他模态；短期记忆就是上下文，受到有限的上下文窗口长度的限制；长期记忆则可以认为是 Agent 在工作时需要查询的外部向量数据库，可通过快速检索进行访问。

目前 Agent 主要是利用外部的长期记忆，来完成很多的复杂任务，比如阅读 PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中，当信息被调用时，储存在记忆中的信息会回到与用户的对话中，由此创造出更加紧密的上下文环境。

向量数据库通过将数据转化为向量存储，解决大模型海量知识的存储、检索、匹配问题。向量是AI 理解世界的通用数据形式，大模型需要大量的数据进行训练，以获取丰富的语义和上下文信息，导致了数据量的指数级增长。

向量数据库利用人工智能中的 Embedding 方法，将图像、音视频等非结构化数据抽象、转换为多维向量，由此可以结构化地在向量数据库中进行管理，从而实现快速、高效的数据存储和检索过程，赋予了 Agent“长期记忆”。同时，将高维空间中的多模态数据映射到低维空间的向量，也能大幅降低存储和计算的成本，向量数据库的存储成本比存到神经网络的成本要低 2 到 4 个数量级。

Embedding 技术和向量相似度计算是向量数据库的核心。Embedding 技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法，例如常见的地图就是对于现实地理的Embedding，现实的地理地形的信息其实远远超过三维，但是地图通过颜色和等高线等来最大化表现现实的地理信息。

在通过 Embedding 技术将非结构化数据例如文本数据转化为向量后，就可以通过数学方法来计算两个向量之间的相似度，即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的，通过相似性检索特性，针对相似的问题找出近似匹配的结果，是一种模糊匹配的检索，没有标准的准确答案，进而更高效地支撑更广泛的应用场景。

2.3 工具：懂得使用工具才会更像人类

AI Agent 与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方，同样地，我们也可以为大模型配备外部工具来让模型完成原本无法完成的工作。

ChatGPT 的一大缺点在于，其训练数据只截止到了 2021 年底，对于更新一些的知识内容它无法直接做出回答。虽然后续 OpenAI 为 ChatGPT 更新了插件功能，能够调用浏览器插件来访问最新的信息，但是需要用户来针对问题指定是否需要使用插件，无法做到完全自然的回答。

AI Agent则具备了自主调用工具的能力，在获取到每一步子任务的工作后，Agent 都会判断是否需要通过调用外部工具来完成该子任务，并在完成后获取该外部工具返回的信息提供给 LLM，进行下一步子任务的工作。

OpenAI 也在 6 月为 GPT-4 和 GPT-3.5 更新了函数调用的功能，开发者现在可以向这两个大模型描述函数，并让模型智能地选择输出包含调用这些函数的参数的 JSON 对象。这是一种更可靠地将 GPT 的功能与外部工具和 API 相连的新方法，允许开发者更可靠地从模型中获得结构化的数据，为 AI 开发者提供了方便。

以 HuggingGPT 为例，HuggingGPT 将模型社区 HuggingFace 和 ChatGPT 连接在一起，形成了一个 AI Agent。2023 年 4 月，浙江大学和微软联合团队发布了 HuggingGPT，它可以连接不同的 AI 模型，以解决用户提出的任务。HuggingGPT 融合了 HuggingFace 中成百上千的模型和GPT，可以解决 24种任务，包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步：

1)任务规划：使用 ChatGPT 来获取用户请求；

2)模型选择：根据 Hugging Face 中的函数描述选择模型，并用选中的模型执行 AI 任务；

3)任务执行：使用第 2 步选择的模型执行的任务，总结成回答返回给 ChatGPT；

4)回答生成：使用 ChatGPT 融合所有模型的推理，生成回答返回给用户。

03 新风口——AI Agent

AI Agent 发展迅速，出现多款“出圈”级研究成果。

2023年3月起，AI Agent 领域迎来了第一次“出圈”，西部世界小镇、BabyAGI、AutoGPT 等多款重大 Agent研究项目均在短短两周内陆续上线，引发了大家对 AI Agent 领域的关注。目前已经涌现了在游戏领域大放异彩的英伟达 Voyager 智能体、能够帮助个人完成简单任务的 Agent 助理 HyperWrite、以及主打个人情感陪伴的 AI 助理 Pi 等多款优秀的 Agent成果，AI Agent 的研究进展迅速。

去年11月， OpenAI 发布 AI Agent 初级形态产品 GPTs，让人看到智能体的应用前景。谷歌、亚马逊在该领域也有所涉猎。比尔・盖茨认为 AI Agent 是 AI 的未来，并预言不久的将来，所有人都将拥有专属 AI 助理。

2024年1月9日，在钉钉 2024 年度产品发布会 - 我的超级助理活动上，我们看到了理想中的 AI Agent：数字员工。会上，钉钉发布了全新 7.5 版本，并推出有机会对标 GPTs 的智能化产品 ——AI 助理，让每个人、每家企业定制个性化、专属超级助理。

如今 AI Agent 或成为激烈角逐点，是 AIGC 下一阶段的关键。

数据来源：

1.《Large language models are zero-shot reasoners》 Kojima, et al.

2. AI Agent：基于大模型的自主智能体，在探索AGI的道路上前进 【东方证券】

—— End ——

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。