写给大家看的ChatGPT说明书

全文2705个字，看完大约5分钟，开始吧。

Alpha Go掀起AI浪潮时，OpenAI已经成立一年了

当我们回首往事，回忆人工智能（简称AI）到底何时被大众所认知和接受，Alpha Go一定功不可没。2016年Alpha Go战胜围棋世界冠军、职业九段棋手李世石，掀起了这一轮的AI浪潮，一时AI风头无两。但我要说的是更早的2015年。在这一年里，至少发生了1件对AI发展至关重要的事情。那就是由萨姆·阿尔特曼等人，认捐10亿美元，在旧金山成立了，后来推出了ChatGPT的，名字叫做OpenAI的人工智能实验室。

AI通过智能音箱走进大众生活，却被诟病是“智障音箱”

2016年再往后，AI通过智能音箱真正开始走进大众生活。在2016年接下来的几年中，中国各大互联网公司纷纷推出了自己的智能音箱。小度小度，小爱同学，天猫精灵等等。

可是那时的AI真的有用吗，显然作用不大，不然智能音箱，也不会被戏谑的称为“智障音箱”。一直到现在，我自己家里的音箱，最多也就用来语音开关各种智能设备。

用户：“小爱同学，1加1等于几？”

音箱：“等于2”

用户同音箱的这一次交互，其核心流程分为5步：

（1）系统监听到唤醒词小爱同学，自动激活音箱。

（2）系统先将语音通过ASR技术转成文本。

（3）文本经过NLP技术处理，理解用户的诉求并输出一段文本答案。

（4）将文本通过TTS技术合成语音。

（5）最后通过音箱播放给用户。

在这里面，一共涉及ASR、NLP、TTS三个核心技术领域。本文主要讲NLP。NLP是机器能正确理解用户所表达的含义以及找到正确答案的核心。那么智能音箱的NLP是如何训练和实现的呢？

住手！这不是我们想象中的人工智能

智能音箱所使用的NLP模型的核心实现方式是监督学习。而所有的监督学习的训练方式都是分为以下三步：

（1）人工标注出大量的标注数据。

（2）算法工程师将标注好的数据喂给模型，进行特征工程、调参等训练过程。模型最后拟合出输入和输出之间的关系算法。

（3）输入标注数据类似的数据，模型自动输出答案，直到答案的召回率和准确率达到要求。

通过监督学习训练出来的模型，其优点是程序的可解释性强，能知道这个问题为什么输出这个答案（know-how）。但缺点就是过于依赖数据，它仅能够在训练数据所属的特定领域满足使用，其泛化能力不足。

意思是，假如我先开发一个“语文老师”机器人，就需要喂大量的语文相关的数据给到机器，那么机器人就只会回答语文相关的问题。同时标注数据的质量还需要足够好足够多，标注数据的质量会直接影响最终输出结果的质量。

如果还需要一个“数学老师”机器人，那么就需要再创造一个数学的机器人。以此类推，一个智能音箱的背后，其实是大量的小机器人组成的阵列。

当用户的问题来了之后，先通过分类的方法，识别用户的问题属于哪个领域，再分配给对应的机器人进行处理。

因此，只要有一个新的领域，就需要标注对应领域的数据，开发对应的机器人。旧的NLP模型，无论是进入新的领域或者新的行业，都无法快速落地。想要到新的行业进行应用，就需要先学习这个行业的知识。因此智能音箱往往能回答的问题，非常有限。当问到未知的问题时，就会含糊其辞，被诟病为“智障音箱”。

人类的知识无穷无尽，这种实现方案显然不是我们想象中的人工智能。

通用型人工智能，GPT降维打击！

第一款 GPT 模型 GPT-1 于 2018 年开发。逐步迭代，于2023年3月发布GPT4，为目前的最新版本。目前被大众广泛使用的为GPT-3版本。GPT-3 使用超过 1750 亿个参数，超过45TB海量数据进行训练。2022年11月，OpenAI对外发布了基于GPT-3版本的应用ChatGPT，大模型时代降临，人们发现一切都变了。ChatGPT发布后一夜爆火，5天收获百万用户，两个月以后，月活突破一亿，成为史上增速最快的消费级应用。一时间大家发现AI好像真的懂我，AI毁灭人类，XX职业即将被AI取代的论调，层出不穷。

ChatGPT的交互界面非常简洁，输入问题即可自动生成答案。我们先来看看GPT大模型是如何实现的。

GPT大模型的训练过程称为，人工反馈强化学习（RHLF），属于半监督学习或无监督学习。只需要向模型提供未标记的训练数据或少量的标注数据。GPT 会自己理解这些句子，将其分解，然后将它们重构成新的句子。GPT 会自行生成准确、真实的结果。然后，由算法工程师对少部分结果进行微调。整个训练不再需要大量的标记数据，也不需要生成若干个领域机器人，而是整体学习全人类的知识。这种学习方式其程序的运行不具备可解释性。

GPT大模型的第一个特征是生成式人工智能。背后只有一个全知全能的老师——复合机器人，精通各个领域，甚至是全人类的知识。通过生成的方式，重复使用其背后的数据，解决新的问题，创造新的内容和想法。比如你想写一篇鲁迅风格的文章，GPT即可使用背后的写作知识、鲁迅相关知识等进行生成，而不需要提前输入很多鲁迅风格的标注数据进行训练。

GPT大模型的第二个特征是prompt，也就是提示词。提示词到底是什么，我个人理解的提示词是，在输入问题之前，给GPT限定一些专业领域和要求。比如让GPT写一篇文章，你可以对GPT做如下限定：

1、你是计算机领域的资深专家；

2、了解写作的规则也擅长于写作；

3、文章长度在1000字左右；正文中可以使用emoji。

4、输出5个备选标题，标题字数10~15个左右。

等等，GPT会自动领会你的要求，并按照要求进行输出。而此时输出结果的质量，也会高于没有任何prompt的情况。允许prompt的特性，也就决定了GPT可以在任何场景下快速落地。只需要你能准确的描述出这个领域下面的prompt，这也是为什么会诞生prompt工程师这个岗位的原因。目前市面上已经有比较成熟的各种角色的prompt：塔罗牌占卜师、算命先生、小红书爆款写手等等。要落地一个应用，简单来说，内置好提示词，接入GPT接口，打造一个用户界面，就可以上线了。

GPT的缺陷也令人十分无语

那么GPT就没有任何缺点吗，当然有的。知识混淆和错误，回答不稳定。比如你问他武大郎是怎么死的，他的回答一言难尽。在数学上的能力目前也不尽如人意。知识的更新也比较受限。但GPT仍然代表着目前在通用型NLP人工智能技术领域中的最高水平，能够帮助我们直接解决大量问题。

GPT贵吗？贵！非常贵！

如果GPT这么厉害，为什么目前还没有面向普通用户的杀手级应用出现。除了上面的原因之外，还有一个最大的一个原因就是成本。

按照GPT-4-Turbo的官方API接口报价，价格在每千字平均0.02美金，0.14元人民币每千字，输入输出双向收费。参考起点中文网的文字价格，非会员用户0.05元每千字，会员更便宜，其成本高出至少3倍。相当于每和用户交互7000个字就要花费1块钱成本，价格极其昂贵。

贵的核心原因之一就是显卡。根据网络数据，GPT3使用超过1000块A100进行训练，GPT4使用超过10000块A100进行训练。一块10000美金。1亿美金只够买显卡。这也太贵了。这背后的最大赢家，当属英伟达了。

未来随着模型的逐步演化，能力会越来越强，也越来越便宜。终将会诞生一个杀手级的应用。个人预测这个杀手级的应用可能会出现在个人助理、学习私教、虚拟交友领域。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。