一文看懂大模型

对于一个新事物，体系性的学习是理解和掌握它的必要途径，也是最便捷的方式。如果只是试图从公众号庞杂的文章中了解，无异于管中窥豹。

大模型是什么？

首先，大模型这个词是建立在神经网络模型上的。

神经网络是一种基于生物学神经系统结构和功能的计算模型，旨在模仿人脑的学习和决策过程。该模型由多个神经元组成，这些神经元通过权重连接形成层次结构，通常分为输入层、隐藏层和输出层。输入层接收原始数据，输出层产生最终的输出，而隐藏层在这两者之间进行中间处理。关注“金科应用研院”，回复【CSDN】领取风控资料！

神经网络通过学习调整连接权重，从而能够识别模式、进行分类、回归等任务。训练神经网络通常包括提供输入数据和相应的期望输出，然后通过反向传播算法来调整权重，使得网络的输出逼近期望的输出。这个过程反复进行，直到网络能够准确地进行任务。

不妨把神经网络想象成一个初生的婴儿，每当婴儿看到一个新东西，比如苹果，我们就告诉他：“这是一个苹果。”这就相当于在神经网络中调整连接的权重，让大脑建立起“苹果”的概念。这个过程就是在训练神经网络，随着时间的推移，婴儿逐渐长大，它就能够分清不同的事物，并依靠计算机强大的计算能力完成许多更复杂的任务。

广义上来说，给它什么样的训练数据，就能通过神经网络建立什么样的映射关系。例如：

动物的图片——动物的类别

中文——对应的英文翻译

语音——对应的文字内容

视频——视频中的事件描述

机器人的视觉反馈——机器人下一步的动作

但是这其实并不容易，映射关系建立的好与坏通常受到以下几种条件的影响：

模型架构

训练数据的数量

训练数据的质量

学习算法

计算硬件算力

其中一个优秀的模型框架是一件很重要的事情。在不断的尝试中，人们得出了一个结论——好的基础模型的大量堆叠往往能出现意想不到的效果。于是大模型产生了。

大模型的模型参数量达到了亿的级别，近期的研究成果基本在百亿到千亿的范围。当然这不会是终点，大模型的神经元数量和相关参数量必定会朝着远超人类大脑神经元数量的方向发展。

那么为什么模型越大，构建映射的能力就越强了呢？近期的一些工作将模型大的优势解释为大模型所带来的涌现能力和思维链构建能力。

涌现，简单的解释就是大量个体组成的整体，表现出个体不具备的能力。比如蚂蚁，一只蚂蚁的智能是有限的，但蚁群却能表现出超乎常人的集体智慧，这就是涌现现象。涌现现象在自然界和社会科学中广泛存在，例如蚁群、鸟群、交通拥堵、金融市场等。回到机器学习中，一些研究表明，对于同样的任务，本身模型表现可能非常一般，但当模型的规模大于一些临界点后，其性能会发生突飞猛进的提升。其原理目前还没有得到合理的解释，但可能与我们接下来要介绍的思维链存在一定的关联。

思维链（Chain of Thought，CoT），是通过让大模型解释其推理过程，从而有效提高模型性能的一种提示策略，由现任OpenAI研究员的华人科学家Jason Wei最早提出，下图是常规提示过程与思维链提示过程模型结果的比较：

常规提示过程vs思维链提示过程(Wei et al.)

CoT已被证明对于算术、常识和符号推理等任务的结果有所改进。很多用户发现，一旦在问题中加上“Let’s
think step by
step”，大模型就好像被施了魔法，原本做错的数学题，突然就会做了；原本的胡说八道，突然就有理有据了——这就是CoT的魔力。但需要指出的是，CoT对模型的性能提升与模型大小成比例，模型参数至少达到10B才有效果，达到100B效果才明显。

大模型的分类

模型的发展最初是伴随着自然语言处理技术的不断发展的，这是由于文本数据的数据量更大且更容易获取。所以目前大模型最大的分类还是大语言模型，近两年衍生出一些语言与其他形式融合的大模型，例如，文字生成音乐（MusicLM）、文字生成图像（DALL-E2，Midjourney）、文字图像生成机器人动作（RT-1）等。

大模型包括但不限于以下几类：

**大语言模型：**专注于处理自然语言，能够理解、生成和处理大规模文本数据。大语言模型在机器翻译、文本生成、对话系统等任务上取得显著成果。OpenAI的GPT系列是其中的代表，包括最新的GPT-4。

**视觉大模型：**专注于计算机视觉任务，例如图像分类、目标检测、图像生成等。它们能够从图像中提取有关对象、场景和结构的信息。例如Vision Transformer（ViT）就是一种基于自注意力机制的视觉大模型，用于图像分类任务。

**多模态大模型：**能够处理多种不同类型的数据，如文本、图像、音频等，并在这些数据之间建立关联。多模态大模型在处理涉及多种感知输入的任务上表现出色，如文图融合、图像描述生成等。多模态是大模型接下来发展的一大趋势。CLIP（Contrastive Language-Image Pre-training）就是一个多模态大模型，能够同时理解文本和图像，用于任务如图像分类和自然语言推理。

**决策大模型：**专注于进行决策和规划，通常应用于强化学习等领域。它们能够在面对不确定性和复杂环境时做出智能决策。深度强化学习中的模型，如AlphaGo和AlphaZero，是决策大模型的代表，能够在围棋等游戏中取得超人类水平的表现。

**行业垂直大模型：**专门设计用于特定行业或领域的任务，如医学、环境、教育等。它们通常在处理特定领域的数据和问题时表现出色。在医疗领域，大规模的医学图像处理模型用于诊断和分析。在金融领域，模型可能用于风险评估和交易策略。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。