通用人工智能的星火：基于GPT-4的早期研究

Something unknown is doing we don't know what.

----------Sir Arthur Eddington

今天为大家介绍的是来自微软研究团队的一篇讨论GPT-4应用能力的论文。该模型展现了比以前的 AI 模型更具有通用智能的能力。除了语言方面的精通外，GPT-4 还可以解决数学、编码、视觉、医学、法律、心理学等广泛领域的新颖且困难的任务，其表现接近于甚至超过了人类水平。因此，该GPT-4可能被视为早期的人工通用智能（AGI）系统的一部分。由于文章较长，本文只针对文章部分内容进行报道，关于文章详细内容请查阅原文。

智能是一个多面向且难以捉摸的概念，长期以来一直困扰着心理学家、哲学家和计算机科学家。1994年，一组由52名心理学家签署的广义定义在有关智能科学的一篇社论中被发表，试图捕捉其本质。小组将智能定义为一种非常普遍的心理能力，其中包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。这个定义意味着智能并不局限于特定的领域或任务，而是涵盖了广泛的认知技能和能力。“人工通用智能”（AGI）这一短语在21世纪初被普及使用，以强调从狭义AI（即在正在开发的专注于实际应用的领域中展示出来的）向更广泛的智能概念的迈进的愿景。文章使用AGI来指代系统，在满足1994年定义中涵盖的广泛智能能力的基础上，还需具备人类水平或以上的智能能力，这可能是共识组工作中隐含的要求。

作者报道了OpenAI开发的一种新型语言模型，即GPT-4，该模型展示出许多符合1994年定义的智能特征。尽管GPT-4仅是一种语言模型，但它在包括抽象、理解、视觉、编码、数学、医学、法律、理解人类动机和情感等多个领域和任务中展现出卓越的能力。通过自然语言查询（提示）与正在OpenAI早期开发中的GPT-4进行交互，在上图中，作者展示了GPT-4的一些初步输出示例，包括要求它用诗歌形式写一篇证明素数无限性的证明、用TiKZ（一种在LATEX中创建图形的语言）画一只独角兽、用Python创建一个复杂的动画，以及解决一个高中级别的数学问题。它轻松地完成了所有这些任务，并生成的输出基本上与（甚至比）人类能够产生的相似。

如何评估GPT-4

我们如何评价一个已经在未知但极为庞大的网络文本数据上进行了训练的模型的智能水平？机器学习中的标准方法是在一组标准基准数据集上评估系统，确保它们独立于训练数据，并涵盖一系列任务和领域。对于研究GPT-4来说，传统的机器学习评估方法不一定适用，原因有两个。首先，由于我们无法访问其庞大的训练数据的全部细节，因此我们必须假设它可能已经看到了每一个现有的基准数据集，或者至少看到了一些类似的数据。其次，GPT-4智能的关键方面之一是其通用性，似乎能够理解和连接任何话题，并执行超越狭隘AI系统典型范围的任务。其中一些最令人印象深刻的表现是在不允许单一解决方案的任务上，例如编写图形用户界面（GUI）或帮助人类对某些工作相关问题进行头脑风暴。可以为这种生成式或交互式任务设计基准测试，但如何设计评估指标会成为一个挑战。

为了克服GPT-4的限制，作者提出了一种不同于传统机器学习的方法，更接近于传统心理学，旨在利用人类的创造力和好奇心。他们的目标是生成新颖和困难的任务和问题，以确信GPT-4远不止于记忆，而且具有深刻和灵活的概念、技能和领域理解。他们还希望探究GPT-4的回答和行为，验证其一致性、连贯性和正确性，揭示其局限性和偏见。虽然这种方法有些主观和非正式，可能不符合严格的科学评估标准，但他们认为这是欣赏GPT-4的卓越能力和挑战的有用和必要的第一步，这样的第一步为开发更正式和全面的测试和分析具有更一般智能的AI系统提供了新的机遇。

多模态与跨学科场景

智能的一个关键指标是能够从不同领域或模态中综合信息，并能够在不同的背景或学科中应用知识和技能的能力。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域展示了高水平的熟练度，而且能够流畅地结合多个领域的技能和概念，展示出对复杂思想的卓越理解。作者在此处故意选择了训练数据很少涉及的跨领域组合，例如文学和数学或编程和艺术，比如“用JavaScript 代码，以画家康定斯基的风格生成随机图像。”（上图左部分为真迹，右部分为模型代码生成图片）等，GPT-4能很好的驾驭此类问题。

各类生成任务

尽管该模型是非多模态的，但它似乎具有真正的视觉能力，而不仅仅是从训练数据中复制代码。如上图所示，GPT-4拥有非常强的代码作画能力。模型在音乐生成，代码生成等任务上都有十分强大的能力。作者在此处展示了其在zero-shot的情况下，在知名编程网站LeetCode的测验结果（如下表格所示），我们可以看到尽管GPT-4在难度为Hard的编程问题上效果不佳，但是在面对一般问题时，经过多次尝试之后能达到非常高的编程水准，且已经超过LeetCode用户平均水准。

数学能力

在这一部分开始评估GPT-4在表达数学概念、解决数学问题和应用定量推理方面的能力，特别是面对需要数学思维和模型构建的问题时。GPT-4可以回答一些难度较大（甚至是有竞争性的）高中数学问题，并且有时可以围绕高级数学主题进行有意义的对话。然而，它也可能会犯一些非常基本的错误，偶尔会产生不连贯的输出，这可能被解释为缺乏真正的理解。作者给出了一个简单数学事例（见上图）。经过大量的测试作者发现GPT-4的数学知识是非常依赖于上下文内容的。虽然这并不意味着GPT-4只记忆常用的数学句子并执行简单的模式匹配来决定使用哪个句子（例如交替使用名称/数字等通常不影响GPT-4的答案质量），但我们确实看到，问题措辞的变化可以改变模型展示的知识（详情请见原文31-34页）。

与现实世界交互

智能的关键因素之一是交互性，作者定义交互性为与其他代理、工具和环境进行沟通和反馈的能力。交互性对于智能非常重要，因为它使代理能够获取和应用知识、解决问题、适应不断变化的情况，并实现超出其个体能力的目标。

作者在于GPT-4交互的过程中，发现当前的知识和符号操作对于语言模型来说是很困难的。然而，GPT-4能够使用外部工具如搜索引擎或API来克服这些限制。例如，在下图中，通过一个简单的提示，使得GPT-4能够访问搜索引擎和其他功能，可以有效的解决传统语言模型难以克服的当前知识欠缺以及符号操作的困难。除此之外，文章还给出了如何在调用外部工具的加持下，利用GPT-4解决现实世界的复杂问题，比如计算机渗透测试，文件管理，日程和邮件管理，通过互联网检索问题等。与人类相同，GPT-4在调用外部工具时有时也会犯错，但是如果用户提示模型出错了，模型也有能力自省并重新给出正确的答案。

除了调用API来解决问题，作者还测试了GPT-4运用自然语言与现实交互的能力。模型在诸如地图导航，玩文字游戏，提供家庭维修建议等实际应用中表现不俗。作者在此处点出文章只在有限数量的游戏和现实世界问题上测试了GPT-4，因此无法就其在不同类型的环境或任务上的表现得出一般性结论。更系统的评估需要一个更大、更多样化的真实世界问题集。

自回归框架对GPT-4的限制

作者在此部分展示该模型也存在一些重要的缺陷，其中一些似乎是其基本的自回归架构带来的。作者在此处试图论证模型的主要限制之一是其架构不允许进行“内部对话”，这些“内部对话”可以使其执行多步计算或存储中间结果。在某些情况下，这种限制可以通过使用不同的提示来解决，但在其他情况下，这种限制是无法缓解的。上图展示了一个很基本的例子，我们可以看到模型明明有能力给出正确的答案，但是让模型直接输出此问题的结果时，模型却难以给出正确的答案。

这个缺陷不仅仅显现在如数学推理这种强推理的问题中，在文本生成任务中也常常会暴露出来。作者将文本生成任务中的限制条件分为两种：局部限制和全局限制。粗略地说，局部约束只涉及文本的相邻部分之间的交互作用，而全局限制涉及生成文本的整体是否符合要求。作者给出了一个有趣的事例，如下图所示。

作者发现模型生成了第一句话时没有“规划”最后一句话应该是什么，导致生成了一个语法错误的句子。随后作者用了很多种提示方法，希望缓解这个问题，但都无济于事。因此，我们能发现自回归模型的一些局限性，表现为模型缺乏规划、工作记忆、回溯和推理能力。该模型依靠局部和贪心的过程生成下一个单词，没有对任务或输出的全局或深入理解，最终导致该模型擅长生成流畅和连贯的文本，但在解决无法以顺序方式处理的复杂或创造性问题方面存在限制。

结论

文章对GPT-4进行了初步探索，测试了其在广泛任务和领域中的表现，提供了支持其能力在许多领域与人类水平相当的证据。作者的主要目标是对GPT-4的智能进行初步评估，这是一项艰巨的任务，因为人工智能系统的这一概念缺乏正式定义。除此之外，文章在深度和广泛性方面展示了该模型的能力，表明机器学习社区需要超越通过结构化数据集和任务的经典基准测试，并且这些新模型的能力和认知能力的评估已经越来越接近于评估人类的任务，而不是狭义的人工智模型。作者希望此项研究能够激发对GPT-4和类似系统的进一步研究，无论是在探索新的应用方面，还是在理解支持其智能的机制方面。

参考资料

https://arxiv.org/abs/2303.12712

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。