打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
ChatGPT是如何工作的?一文讲清大语言模型(LLM)的工作原理

ChatGPT产品推出,引领的人工智能浪潮,已经不是一个热词,而是一项重大的技术革新,甚至被誉为第四次工业革命。相应的,今年我也参加了很多关于人工智能的讲座及研讨会。因为我是做知识产权法律工作的,所以参加的大多是关于人工智能的知识产权问题、人工智能的法律监管、以及商业界关于人工智能应用场景的设想,等等。

虽然每个人都在大谈人工智能,但是我感觉很多律师朋友或商界人士,对于人工智能背后的技术,也就是所谓的“大语言模型(LLM)”,并不清楚。因此,我试图用非常简单明了的语言,为非专业人士,讲清楚大语言模型背后的工作原理。希望您在了解了底层技术原理后,对于人工智能的理解和应用,将更上一层楼。

第一步:将单词转换为数字组合

语言的基本单位主要是单词,因此,大语言模型(LLM)工作的第一步,就是将单词转换为数字组合例如,Cat(猫)这个英文单词,在LLM的数字世界里,用数字组合表示如下(这个数字组合包括多达300个数字)1

[0.0074, 0.0030, -0.0105, 0.0742, 0.0765, -0.0011, 0.0265, 0.0106, 0.0191, 0.0038, -0.0468, -0.0212, 0.0091, 0.0030, -0.0563, -0.0396, -0.0998, -0.0796, …, 0.0002]

为什么要将单词转换为数字组合?因为这样就可以进行后续的电脑运算。例如,“Cat(猫)”与“Dog(狗)”的数字组合,相比“Cat(猫)”与“Computer(电脑)”的数字组合,在数学上更为接近,因为在日常语言中,Cat与Dog相邻出现的几率更高。再例如,“King(国王)”-“Man(男人)”+“Woman(女人)”=“Queen(女王)”

这一步,在LLM的术语里,叫做'Word Vector'(词向量)以及“Token”(词元),就是将语言的基本单位(单词,标点,数字,等)转换为数字组合。

第二步:使用多级规则解析句子,试图预测下一个将要出现的单词

大语言模型里设置了一层一层的规则,一步一步地,从不同角度理解与分析句子,在此基础上,试图预测下一个将要出现的单词。

这就像是家用的多级净水器,第一级用棉纱来过滤泥沙,第二级用活性炭来吸附杂质和异味,第三级用反渗透膜过滤掉有害物质,等等,最后得到净水。

同样地,LLM里也设置了多层或多级的语言规则理解器。比如:

第一层规则,致力于理解句子中每个单词和短语的含义。例如,如果看到单词“雨”,就知道它与天气有关。

第二层规则,致力于理解句子中每个单词是怎样关联的。例如,如果看到句子以“乌云密布”开头,则预测下个单词很可能是“雨”,因为乌云通常意味着雨。

第三层规则,致力于回忆前面句子中的内容,用来理解下个句子。例如,如果看到之前的句子提到“乌云”和“雨伞”,根据上句的这些线索,预测下句很可能出现“雨“这个单词。

这一步,在LLM的术语里,叫做“Transformer”(转换器),这也是ChatGPT最后一个字母T的含义。(ChatGPT的英文全称为 Chat Generative Pre-trained Transformer)

GPT-3(第三代GPT)中,包含了96层的Transformer,参数总量高达1750亿个!

第三步:使用大数据训练模型,提高语言的准确度

使大语言模型(LLM)接触到大量来自互联网的文本,通过阅读和分析这些文本,LLM可以识别单词和句子的使用方式,它们的含义,以及它们之间的关系,从而不断提高语言的准确度。

这就像训练一只狗。当类似场景重复出现,狗就会建立联系,想想巴甫洛夫的条件反射实验,只要摇铃,狗就会淌口水。狗的动作正确,就会得到奖励;动作错误,就会被纠正。同样地,重复出现的语言模式,LLM就会记住。预测正确,LLM会得到正反馈;预测错误,LLM则收到负反馈。

LLM通过调整其内部设置来学习(想想它有多达1750亿个参数可以调节),这有点像狗的大脑变得更善于理解命令。它学会了预测在特定情境下接下来应该出现哪些单词。例如,当它看到“The sun is shining,”时,它学会了“shining”后面可能会跟着“brightly”或“today”。

量变引起质变“,这句话用在LLM的训练上,相当贴切。当我们惊艳于ChatGPT的出色表现时,不要忽视了它所经历的训练量。GPT-3是在大约5000亿个单词的语料库上进行训练的。相比之下,一个典型的人类儿童到10岁时,大约会接触到1亿个单词左右1

最后,我想澄清一个常见的误解。很多人以为,大语言模型不过是更为复杂的电脑软件而已。实则不然。传统的电脑软件,是”演绎法“的,从1推到2再推到3,每一步都是人写好的程序,其运行是线性的,对人是完全透明的。相比,人工智能的大语言模型,是”归纳法“的,其是基于接触大量数据,从而识别与理解出其中的模式、关系、语言结构。可以想像,怎样归纳,归纳的结果是什么,具有相当的可变性。

与传统软件不同,LLM的运行不基于明确的规则或编程。相反,它们从数据中学习,并调整其内部参数以基于它们学到的模式进行预测。这意味着它们的决策过程对人不是完全透明的,是”混沌“的。

我认为,正是这种”混沌“性,闪现了“智能”,让我们意识到,人工智能(AI)将是“美丽”而“危险”的。这有点像是上世纪70年代,生命科学领域重组DNA技术的出世,让我们既欣喜看到它成为人类进步的强大工具,又担心我们是否打开了“潘多拉的魔盒”。这也是为什么,马斯克等大咖们,在生命未来研究所于2023年3月22日发表的关于AI的公开信2上签名,呼吁所有人工智能实验室立即暂停比GPT-4更强大的人工智能系统的训练,至少暂停6个月;并且,在暂停期间,思考人工智能的监管与规制,制订针对高级AI的设计和开发的安全协议。

以上,是我对大语言模型工作原理的个人理解,用简单明白的话语写出,希望对您有所助益, 并请专业人士不吝指正。

[1] Timothy B Lee and Sean Trott, Large language models, explained with a minimum of math and jargon, https://www.understandingai.org/p/large-language-models-explained-with

[2] Future of Life Institute, Pause Giant AI Experiments: An Open Letter, https://futureoflife.org/open-letter/pause-giant-ai-experiments

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Yann LeCun:大模型方向错了,智力无法接近人类
HuggingGPT:借力 LLM 使用 Hugging Face 模型来解决复杂的 AI 任务
语言大模型的进化轨迹
ChatGPT掀起技术狂潮:顶流之下,看人工智能喜与忧
从零开始了解AI大模型-概念篇:一文带你走进大模型世界
具身智能?它为何能赋予机器人灵魂
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服