中科大和华为诺亚方舟实验室专家共同提出LLM智能体的双阶段策略：弱探索与强利用的协同

在人工智能领域，大型语言模型（LLM）的出现标志着技术的一大飞跃。它们不仅能够理解和生成自然语言，还能在多种复杂的任务中作为智能体发挥作用。但是当这些任务发生在开放世界环境中，即一个动态变化且信息不完全的环境，LLM智能体面临着前所未有的挑战。在这样的环境中，智能体需要不断探索未知领域，同时利用已有知识来做出决策和执行任务。这就要求LLM智能体具备高度的适应性和灵活性，能够在不断变化的条件下进行有效的学习和决策。

近日，来自于中国科学技术大学与华为诺亚方舟实验室的黄旭,刘伟文,陈小龙,王星梅,连德福,王亚生,唐瑞明,陈恩红八位专家联合发表了论文《WESE: Weak Exploration to Strong Exploitation for LLM Agents》,他们指出探索（Exploration）和利用（Exploitation）是LLM智能体在开放世界任务中的两个关键行为。探索是指智能体寻找新信息和尝试新策略的能力，而利用则是指智能体使用已知信息来最大化其性能的能力。在理想情况下，智能体应该在探索新可能性和利用已知策略之间找到一个平衡点。但是现有的LLM应用往往难以在这两者之间做出有效的权衡，要么过于依赖已有知识而缺乏创新，要么在探索中消耗过多资源而效率低下。

“弱探索到强利用”，WESE方法的提出正是为了解决这一问题，它通过将探索和利用分离开来，使用参数较少的LLM进行初步探索，而将参数更多、计算能力更强的LLM用于深入的利用阶段。这种方法的动机在于减少在探索阶段的资源消耗，同时确保在利用阶段能够充分发挥LLM的潜力。通过这种策略，WESE旨在提高智能体在开放世界任务中的效率和效果，同时降低计算成本。

WESE方法的提出是基于对现有LLM应用在开放世界任务中的局限性的深刻理解。它不仅为LLM智能体在探索和利用方面提供了新的解决方案，也为未来人工智能的发展方向提供了新的思路。随着人工智能技术的不断进步，WESE方法有望在智能体的自主学习和决策能力提升上发挥重要作用，推动LLM智能体在更广泛的应用场景中发挥更大的价值。

WESE方法概述

WESE方法的核心在于将探索（Exploration）和利用（Exploitation）两个过程分离开来。在传统的LLM应用中，探索和利用通常是交织在一起的，这可能导致效率低下和资源浪费。WESE方法提出了一种新颖的策略，即使用参数较少的LLM进行探索，而将参数更多、更强大的LLM用于利用阶段。这样的设计旨在降低探索阶段的资源消耗，同时保证在利用阶段能够充分发挥LLM的能力，从而在开放世界任务中实现更高的效率和效果。

图1：次优决策和反馈中不相关信息的示例。

通过在ALFWorld和ScienceWorld等开放世界任务基准上的实验验证，WESE方法展现了其在有效性、效率和成本方面的优势。实验结果显示，与传统的LLM应用相比，WESE方法在成功率、完成任务所需的平均步骤数以及资源消耗上都有显著改进。特别是在资源消耗方面，WESE方法通过弱探索策略节省了大量的计算资源，同时在任务成功率和效率上仅有微小的降低，这证明了其在成本效益上的显著优势。

此外，WESE方法还在HotPotQA和FEVER这两个问答任务基准上进行了验证。结果表明，WESE方法能够有效地减少完成任务所需的步骤数，同时保持较高的成功率，进一步证实了其在开放世界互动任务中的适用性和优越性。

相关工作

规划是LLM智能体的核心能力之一。在过去的研究中，规划通常被视为一系列决策和行动的产出，目的是从当前状态导向目标状态。LLM智能体在规划方面的研究，如何利用其语言理解能力来解析复杂任务并生成有效的行动序列，已经成为了研究的热点。例如，通过理解自然语言指令，LLM能够生成一系列步骤来完成从制作食物到编写代码的任务。

工具使用是LLM智能体在开放世界任务中的另一个关键能力。智能体需要理解工具的功能和使用方法，以及如何将这些工具应用于解决实际问题。在这方面的研究中，LLM智能体被训练来识别和操作虚拟环境中的工具，从而完成特定的任务。这不仅要求智能体具备对工具的基本认知，还要求它能够在没有人类直接指导的情况下自主学习工具的使用方法。

记忆模块对于LLM智能体来说至关重要，尤其是在处理那些需要长期记忆和信息检索的任务时。记忆模块使得智能体能够存储和回忆过去的经验，这对于在开放世界环境中做出快速反应和决策是非常重要的。近年来，研究者们已经开始探索如何将记忆模块与LLM结合，以增强其在复杂任务中的表现。

在开放世界任务的应用案例中，LLM智能体已经在多个领域展现了其能力。例如，在游戏领域，LLM智能体能够与人类玩家进行互动，甚至在某些游戏中超越人类玩家的表现。在医疗领域，LLM智能体被用来辅助诊断和治疗计划的制定。此外，LLM智能体还在法律、金融和教育等领域中找到了应用，帮助人类解决问题和提高效率。LLM智能体在规划、工具使用和记忆模块方面的研究为其在开放世界任务中的应用奠定了基础。

WESE方法的具体实现

图2：WESE框架。左边部分代表勘探薄弱，右边部分代表开采有力。在实现中，他们使用Llama-2-7B作为弱代理，使用text-davinci-003作为强代理。

环境和任务的定义

在WESE框架中，环境被定义为一个开放世界的交互式模拟，其中LLM智能体可以执行一系列动作来影响环境状态。这些环境通常是高度动态的，包含多样的对象和可执行的操作，要求智能体能够理解和适应不断变化的条件。任务则是在这样的环境中设定的特定目标，智能体需要通过一系列的决策和行动来完成。LLM的行动空间定义了智能体可以执行的所有可能动作，包括移动、观察、交互等。

探索和利用的分离策略

WESE方法的核心在于将探索和利用两个过程分离。在探索阶段，使用参数较少的LLM（弱LLM）进行初步的环境探索，以低成本获取关于环境的基础信息。这些信息包括环境的布局、对象的位置和属性等。弱LLM在这一阶段不需要做出复杂的推理，只需执行简单的动作序列来收集信息。而在利用阶段，使用参数更多、能力更强的LLM（强LLM）来执行更复杂的任务。强LLM利用在探索阶段收集的信息，进行深入的推理和规划，以完成具体的任务目标。

知识图谱的构建和信息检索算法

为了有效地在探索和利用阶段之间传递信息，WESE方法引入了基于知识图谱（KG）的记忆模块。在探索阶段，弱LLM收集到的信息被转化为知识三元组，并存储在知识图谱中。这些三元组形成了环境的结构化表示，便于强LLM在利用阶段进行检索和推理。信息检索算法则是用于从知识图谱中提取与当前任务相关的信息。这通常涉及到一跳或多跳的检索过程，智能体需要根据任务的需求，从图谱中检索出相关的三元组来支持决策。

通过这种方式，WESE方法不仅提高了智能体在开放世界任务中的效率和效果，还降低了计算成本。它为LLM智能体在处理复杂环境和任务时提供了一个新的视角，展示了如何通过分离探索和利用来优化性能和资源的使用。这种方法的提出，无疑为未来LLM智能体的研究和应用开辟了新的道路。

实验设计和结果分析

ALFWorld和ScienceWorld上的决策任务实验

ALFWorld和ScienceWorld提供了一个丰富的测试环境，用于评估LLM智能体在执行决策任务时的表现。在ALFWorld中，智能体需要在一个模拟的家庭环境中执行一系列任务，如清洁、烹饪和整理。这些任务要求智能体能够理解环境、识别对象，并执行一系列复杂的动作。ScienceWorld则提供了更具挑战性的科学实验任务，如混合化学物质或进行物理实验，这些任务不仅要求智能体有高级的操作技能，还要求它们能够理解科学概念和过程。

图3：ALFWorld上各种类型任务的成功率相对提高。剩下的任务更为复杂。

在这些环境中，WESE方法的实验设计包括了使用弱LLM进行初步探索，以收集环境信息，并构建知识图谱。随后，强LLM利用这些信息来执行更复杂的决策任务。实验结果表明，WESE方法能够有效地提高智能体在这些任务中的成功率，同时减少所需的步骤数和计算资源消耗。

HotPotQA和FEVER上的问答任务实验

在问答任务方面，HotPotQA和FEVER提供了基于真实世界数据的测试场景。HotPotQA要求智能体能够回答涉及多个文档的复杂问题，而FEVER则要求智能体验证一个声明的真实性。这些任务测试了智能体的信息检索、理解和推理能力。

WESE方法在这些问答任务中的应用包括使用弱LLM进行初步的信息检索，然后使用强LLM进行深入的推理和答案生成。实验结果显示，WESE方法在这些任务上的表现优于传统的LLM方法，特别是在成功率和效率方面。

WESE与其他基线方法的性能对比

在所有的实验中，WESE方法都与其他几种基线方法进行了对比，包括传统的LLM方法和其他最新的智能体方法。性能指标包括成功率、平均步骤数和资源消耗。实验结果一致表明，WESE方法在这些指标上都有显著的改进。特别是在资源消耗方面，WESE方法通过减少在探索阶段的计算需求，显著降低了总体成本，同时保持了高成功率和低步骤数，证明了其在开放世界任务中的高效性和成本效益。

表：HotPotQA的结果（500个任务）。SR和AS分别是成功率和成功任务的平均步骤的缩写。SESE代表了WESE的变体——从强探索到强开发。Imp表示与基本方法（即Act和ReAct）相比的相对改进。粗体和下划线表示相同基本方法的最佳和次佳。

WESE方法的实验设计和结果分析展示了其在多种开放世界任务中的有效性。通过将探索和利用分离，WESE方法不仅提高了智能体的性能，还降低了计算成本，为将来LLM智能体在更广泛的应用中提供了一个可行的解决方案。

讨论

WESE方法，即从弱探索到强利用的转变，为LLM智能体在开放世界任务中的应用提供了一种新的思路。其优势在于能够有效地平衡资源消耗与任务执行效率。通过在探索阶段使用参数较少的模型，WESE方法减少了计算资源的需求，同时在利用阶段使用更强大的模型来确保任务执行的准确性和深度。这种策略不仅提高了智能体的性能，还降低了成本。

WESE方法仍有改进空间。例如，如何选择合适的弱LLM以确保探索的质量，以及如何更高效地从探索阶段转移到利用阶段，都是需要进一步研究的问题。此外，当前的WESE方法可能还需要更多的实验来验证其在不同类型的开放世界任务中的普适性。

在实际应用中，WESE方法可能面临的挑战包括如何处理大规模、高复杂性的环境，以及如何快速适应环境变化。解决方案可能涉及到开发更先进的知识图谱构建技术，以及利用机器学习的最新进展来提升模型的适应性和灵活性。

结尾

WESE方法的研究贡献在于它为LLM智能体在开放世界任务中的应用提供了一种新的框架。实验结果表明，该方法能够在保持高成功率的同时，减少计算资源的消耗。这一发现对于推动LLM智能体的研究和应用具有重要意义。

未来的研究方向可能包括进一步优化WESE方法，使其能够更好地处理更广泛的任务和环境。此外，如何将WESE方法与其他人工智能技术相结合，以及如何在真实世界中部署这些智能体，也是值得探索的领域。随着技术的不断进步，我们有理由相信LLM智能体将在将来的人工智能应用中扮演更加重要的角色。（END）

参考资料：https://arxiv.org/abs/2404.07456

波动世界（PoppleWorld)是噬元兽容器的一款AI应用，采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。