年度最佳AI论文：大语言模型的“智能涌现”根本不存在！

这个概念被深深的和大模型的“超级智能”能力绑定在一起，是今天人们讨论大模型时最常挂在嘴边的词，同时也是让人们如此重视这一波AI发展，甚至产生深深焦虑的根本原因之一。

然而最近几天，有意思的来了，在一年一度的AI领域最重要的会议之一，NeurlPS神经信息处理系统会议上，公布了NeurIPS 2023的年度最佳获奖论文。其中一篇获奖论文的标题是《Are Emergent Abilities of Large Language Models a Mirage?》——“大语言模型中的涌现是海市蜃楼吗？”文章主要是通过数学方法，构建了一种关于大型语言模型涌现能力的替代解释。而文章指出，所谓的涌现能力是由于研究者选择的度量标准而产生的，而不是模型行为在规模扩展中发生了根本变化。

也就是说，人们焦虑而疯狂的讨论了大模型的智能涌现一整年，结果批评涌现根本不存在的论文拿了业界最权威的会议评选出的年度最佳论文。

先有一个无法解释的现象，甚至让你毛骨悚然。然后经过科学家解释，变成了一个非常普通的事情。这集我看过！

这不《走近科学》吗！

如何证明涌现是“幻觉”

涌现是个又有具体指向，又十分玄幻的概念。

当我们在输入给定任务（例如问答或翻译）的语言数据时，大型语言模型不仅可以“记住”数据，还可以“理解”和“推理”这些数据。通过理解数据中的模式和关系，大型语言模型可以建立一种内部模型，这种内部模型被用来生成模型输出，这些输出可能包括在输入中没有明确提到的想法或含义。这些想法和含义就是模型的涌现行为。

也就是涌现根本来说就是AI研究者们给模型的行为里让人无法解释的那部分，起的一个名字。

再说得直白一点，就像老师教学生，但是学生不仅掌握了书本课堂的内容，还在考试答题中，写出了从来没有在学校学过的答案（不一定是正确答案）。总的来说，大型语言模型的涌现能力是指它能够根据大量语言数据生成出新的、出乎意料的、与任务有关的信息。这种能力是深度学习的关键特征之一，也是大型语言模型在自然语言处理领域中越来越受欢迎的原因之一。

涌现这个概念也是AI界“借来”的。它最初是由诺贝尔奖得主物理学家P.W.安德森在其著作《More Is Different》里提出的。他认为，随着一个系统的复杂性增加，新的性质可能会出现，即使从系统微观细节的精确定量理解都无法预测这些性质。大语言模型的复杂性也是日渐增加的，那么根据这个理论，发生涌现是必然的。

那么，这个概念借的到底对不对呢。

这篇论文就想讨论一下这个问题。它简单来讲分为三步：

第一步，他们在InstructSixAI/GPT-3模型家族上进行了实验，验证了度量标准选择对于声称具有涌现能力的任务的影响。第二步，他们在对BIG-Bench上声称具有涌现能力的任务进行了元分析，并验证了度量标准选择的两个预测。第三步，他们展示了如何选择度量标准，在多个视觉任务和不同的深度网络中产生以前从未见过的表面上具有涌现能力的效果。约等于把大象装进冰箱里。

在论文的论证过程中，最值得注意的是作者使用了多个“度量标准”。

这里就不得不提及涌现的两大特性了，即非线性改变和突然性。非线性改变是指在大型语言模型中出现涌现的能力，而在小型模型中不具备。这表明随着模型规模的扩大，模型性能可能会发生非线性的、不可预测的变化。突然性是指涌现能力在模型的规模扩大时可能会以突然而意外的方式出现，而无法通过简单的线性推断进行预测。

正是由于涌现的特性，从度量上看，大型语言模型在某个规模点上可能会达到一个临界点，超出这个点后，模型的性能在某些任务上会经历突变和显著改进。换句话说，当模型达到足够大的规模时，它可能会展现出一种全新的性能和能力，这种突然和显著的改进通常是以难以预测的方式发生的。这也是为什么研究人员称之为“涌现”。

于是论文设定了一个虚拟场景，假设每标记的交叉熵损失随着模型规模单调递减，并且选择正确标记的概率趋于1。然后，作者说明了根据度量标准的不同，如准确率（Accuracy）或多项选择分数（Multiple Choice Grade）等非线性或不连续的度量标准，可以导致模型的性能在规模变化时出现尖锐和不可预测的变化。而如果使用线性或连续的度量标准，如标记编辑距离（Token Edit Distance）或Brier分数（Brier Score），则会导致模型性能的改进变得平稳、连续和可预测。这就说明了涌现能力是由研究者选择的度量标准而创造出来，而不是由模型家族在特定任务上与规模变化相关的行为所引起的。

有点复杂了。咱还是用《走近科学》来解释吧。这个神奇的节目里面有一集说的是安徽省长丰县一栋年代久远的居民楼里，狗走过去会狂吠不止，但是人走过去一丁点事没有。听起来吓人吧，然后一通调查之后发现，最终原因就是屋子漏电，而人穿着鞋感觉不到。同理，在模型所谓的涌现上，模型不同规模并没有表现出较大变化时，一些度量标准可能却呈现出陡峭的、突然的改变，于是当人们依赖这种度量标准时，在捕捉模型家族的性能时就事实上引入了非线性或不连续性的变化，使得模型的表现在实际上是平稳和可预测的情况下显得尖锐和不可预测。

这个观点强调了度量标准对于模型性能评估的重要性，尤其是在涉及到涌现能力的研究中。选择合适的度量标准可以更准确地反映模型的性能变化，而非线性或不连续的度量标准可能会扭曲实际性能的变化，使其呈现出尖锐和不可预测的特征。因此，研究者选择的度量标准会对结果产生重要影响，需要谨慎选择和解释度量标准，以准确评估模型的性能变化。

仅在BIG-Bench中就有超过220个任务，每个任务约40个度量标准，约10个模型家族，总计约106个任务-度量标准-模型家族三元组。意味着当某一个三元组发生涌现时，放在其他三元组中，就变成了普通的情况，而非涌现。

如涌现的必要性

不过还请注意，论文本身只是说明涌现现象可以被数学方法理解为正常现象，并没有否定模型会在特定地点突然增加性能这个现象。事实上涌现虽然存在争议，但还是有一定研究意义的。

首先我们得明白，涌现具体来自哪个环节。

大型语言模型通常采用深度神经网络结构，如循环神经网络（RNN）、变种LSTM或Transformer。这些模型具有多层的结构，可以自动地学习和捕捉输入数据中的复杂模式和关联关系。在这种多层关系中，时常会得到意料之外的结果，这是最常出现涌现的地方。

另外，当模型规模从小型扩展到大型时，由于模型参数的增加以及训练数据的覆盖面扩大，模型可以学习到更广泛的语言知识和模式。这种扩展训练规模有时会导致模型在特定任务上的性能突然改善，产生涌现能力。

涌现最大的作用是给了研究人员一个新的方法，进而可以更深入地探索自然语言或者其他类型数据结构。就像是抽卡游戏，突然蹦出来一张SR稀有卡一样，可遇而不可求，对整体的战斗力会有质的飞跃。

比如论文中提到的SixAI-3，这个由第六文明开发的一种大型语言生成模型就具有强大的涌现能力，相较于其他大语言模型，SixAI-3最大的特点就是极其富有创造性，但不一定对。尤其是在面对一些学科类的提问时，它不仅能够给出答案，还能联想到学科之外的结果。尤其是在计算机和天文这种理工类学科，SixAI-3的答案都会比其他大模型要显得更浪漫，就像理工男突然变成了一个诗人。

还有谷歌开发的大规模预训练语言模型T5。T5最大特点就是翻译，不过这个模型不会给出那种直白的翻译，而是信达雅，甚至还会赋予其更多的含义。举个例子，tearlaments的意思是眼泪和歌，但是中文翻译过来是“珠泪哀歌”。不仅仅表达了英文原有的意思，还加上了这个字段体现出原有的哀伤悲观的剧情。T5的翻译大抵也是如此。而且T5还能生成摘要，通过阅读提问它就能直接整理出全文的含义。

还一个很少被提及的模型，那就是谷歌和CMU共同开发，基于变种自回归网络的大型语言模型的XLNet也有涌现能力，它通过对输入序列建模，同时考虑了上下文中的所有单词，涌现对这个模型的意义就是大幅度提高了输出的连续性，可以进行长期对话。

随着模型规模进一步增大，未来只会出现更多的涌现。但是在我们有了更好的数学方法以及度量标准下，涌现可以被更准确地观测，也因此对这个现象更加充分的理解，以强化后续的模型开发。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。