ChatGPT是如何工作的？一文讲清大语言模型（LLM）的工作原理

ChatGPT产品推出，引领的人工智能浪潮，已经不是一个热词，而是一项重大的技术革新，甚至被誉为第四次工业革命。相应的，今年我也参加了很多关于人工智能的讲座及研讨会。因为我是做知识产权法律工作的，所以参加的大多是关于人工智能的知识产权问题、人工智能的法律监管、以及商业界关于人工智能应用场景的设想，等等。

虽然每个人都在大谈人工智能，但是我感觉很多律师朋友或商界人士，对于人工智能背后的技术，也就是所谓的“大语言模型（LLM）”，并不清楚。因此，我试图用非常简单明了的语言，为非专业人士，讲清楚大语言模型背后的工作原理。希望您在了解了底层技术原理后，对于人工智能的理解和应用，将更上一层楼。

第一步：将单词转换为数字组合

语言的基本单位主要是单词，因此，大语言模型（LLM）工作的第一步，就是将单词转换为数字组合。例如，Cat（猫）这个英文单词，在LLM的数字世界里，用数字组合表示如下（这个数字组合包括多达300个数字）^【1】。

[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468, -0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]

为什么要将单词转换为数字组合？因为这样就可以进行后续的电脑运算。例如，“Cat（猫）”与“Dog（狗）”的数字组合，相比“Cat（猫）”与“Computer（电脑）”的数字组合，在数学上更为接近，因为在日常语言中，Cat与Dog相邻出现的几率更高。再例如，“King（国王）”-“Man（男人）”+“Woman（女人）”=“Queen（女王）”

这一步，在LLM的术语里，叫做'Word Vector'（词向量）以及“Token”（词元），就是将语言的基本单位（单词，标点，数字，等）转换为数字组合。

第二步：使用多级规则解析句子，试图预测下一个将要出现的单词

大语言模型里设置了一层一层的规则，一步一步地，从不同角度理解与分析句子，在此基础上，试图预测下一个将要出现的单词。

这就像是家用的多级净水器，第一级用棉纱来过滤泥沙，第二级用活性炭来吸附杂质和异味，第三级用反渗透膜过滤掉有害物质，等等，最后得到净水。

同样地，LLM里也设置了多层或多级的语言规则理解器。比如：

第一层规则，致力于理解句子中每个单词和短语的含义。例如，如果看到单词“雨”，就知道它与天气有关。

第二层规则，致力于理解句子中每个单词是怎样关联的。例如，如果看到句子以“乌云密布”开头，则预测下个单词很可能是“雨”，因为乌云通常意味着雨。

第三层规则，致力于回忆前面句子中的内容，用来理解下个句子。例如，如果看到之前的句子提到“乌云”和“雨伞”，根据上句的这些线索，预测下句很可能出现“雨“这个单词。

这一步，在LLM的术语里，叫做“Transformer”（转换器），这也是ChatGPT最后一个字母T的含义。（ChatGPT的英文全称为 Chat Generative Pre-trained Transformer）

GPT-3（第三代GPT）中，包含了96层的Transformer，参数总量高达1750亿个！

第三步：使用大数据训练模型，提高语言的准确度

使大语言模型（LLM）接触到大量来自互联网的文本，通过阅读和分析这些文本，LLM可以识别单词和句子的使用方式，它们的含义，以及它们之间的关系，从而不断提高语言的准确度。

这就像训练一只狗。当类似场景重复出现，狗就会建立联系，想想巴甫洛夫的条件反射实验，只要摇铃，狗就会淌口水。狗的动作正确，就会得到奖励；动作错误，就会被纠正。同样地，重复出现的语言模式，LLM就会记住。预测正确，LLM会得到正反馈；预测错误，LLM则收到负反馈。

LLM通过调整其内部设置来学习（想想它有多达1750亿个参数可以调节），这有点像狗的大脑变得更善于理解命令。它学会了预测在特定情境下接下来应该出现哪些单词。例如，当它看到“The sun is shining,”时，它学会了“shining”后面可能会跟着“brightly”或“today”。

”量变引起质变“，这句话用在LLM的训练上，相当贴切。当我们惊艳于ChatGPT的出色表现时，不要忽视了它所经历的训练量。GPT-3是在大约5000亿个单词的语料库上进行训练的。相比之下，一个典型的人类儿童到10岁时，大约会接触到1亿个单词左右^【1】。

最后，我想澄清一个常见的误解。很多人以为，大语言模型不过是更为复杂的电脑软件而已。实则不然。传统的电脑软件，是”演绎法“的，从1推到2再推到3，每一步都是人写好的程序，其运行是线性的，对人是完全透明的。相比，人工智能的大语言模型，是”归纳法“的，其是基于接触大量数据，从而识别与理解出其中的模式、关系、语言结构。可以想像，怎样归纳，归纳的结果是什么，具有相当的可变性。

与传统软件不同，LLM的运行不基于明确的规则或编程。相反，它们从数据中学习，并调整其内部参数以基于它们学到的模式进行预测。这意味着它们的决策过程对人不是完全透明的，是”混沌“的。

我认为，正是这种”混沌“性，闪现了“智能”，让我们意识到，人工智能（AI）将是“美丽”而“危险”的。这有点像是上世纪70年代，生命科学领域重组DNA技术的出世，让我们既欣喜看到它成为人类进步的强大工具，又担心我们是否打开了“潘多拉的魔盒”。这也是为什么，马斯克等大咖们，在生命未来研究所于2023年3月22日发表的关于AI的公开信^【2】上签名，呼吁所有人工智能实验室立即暂停比GPT-4更强大的人工智能系统的训练，至少暂停6个月；并且，在暂停期间，思考人工智能的监管与规制，制订针对高级AI的设计和开发的安全协议。

以上，是我对大语言模型工作原理的个人理解，用简单明白的话语写出，希望对您有所助益，并请专业人士不吝指正。

[1] Timothy B Lee and Sean Trott, Large language models, explained with a minimum of math and jargon, https://www.understandingai.org/p/large-language-models-explained-with

[2] Future of Life Institute, Pause Giant AI Experiments: An Open Letter, https://futureoflife.org/open-letter/pause-giant-ai-experiments

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。