国内大模型市场玩家可谓是你方唱罢我登场，BAT这样的互联网大厂做，IT巨头华为做、传统的AI厂商科大讯飞、商汤指望着大模型再现辉煌，还有百川、智谱这样顶着光环的创业厂商···

各家都发布了自己的大模型，然后霸占各大评测榜榜首总是GPT4，为什么国内这么多大模型都赶上不GPT4？

某大模型评测榜单

AI模型有三要素：数据、算法、算力。数据的多寡与质量、算法先进性、算力充足性对模型效果起着决定性影响，本文试着从这几方面做个分析，帮助大家判断、选择适合自己的大模型。

数据因素：

讨论数据时首先要明确一点，机器翻译的数据和原生数据的质量是有不小差别的，比如一篇英文论文让机器翻译成中文，勉强是能看懂的水平。所以假设互联网数据都是公开的，我们可以用国外英文（法语、西语···）数据，OpenAI可以用我们的中文数据，因为国内大模型厂商主要面向汉语人群服务，英文数据再多再好也不能成为模型训练数据的大头，GPT同理。

所以数据的比对就变成了英文（法语、西语···）数据和中文数据谁作为模型训练的质量更高？这个咱必须得承认，老外在数据上是有优势的，有研究机构分析了为何海外拥有更多开源高质量数据：

1）相对较好的开源互联网生态；2）免费线上书籍、期刊的资源积累；3）学术界、互联网巨头研究部门、非盈利研究组织及其背后的基金形成了开放数据集、发表论文-被引用的开源氛围。

而我们在数据管理上还存在不足，这是客观因素：

1）高质量数据集需要巨大资金投入，当前国内数据挖掘和数据治理的力度不足；2）国内相关公司不具有开源意识，数据无法在市场上自由流通；3）国内相关公司成立较晚，数据积累相对国外公司更少；4）学术领域中文数据集受重视程度低；5）国产数据集市场影响力及普及度较低等

事实也证明了缺乏高质量开源数据的情况下，仅依靠自身领域内的数据，哪怕质量很高，训练出来的模型通用能力也是不够的，典型如国内互联网巨头：百度有万亿级的网页数据，数十亿的搜索数据和图片数据、腾讯有微信公众号，微信搜索等优质数据，阿里有淘宝、天猫沉淀的电商数据和钉钉中的企业数据，而华为因为各大军团原因有丰富的B端行业数据，这些数据质量都很高，大厂们的数据治理能力也不在话下，而模型效果仍然比不上GPT4。

下图展示的是国内外大模型数据集的来源分布，从中可以看出海外大模型受益于若干高质量开源生态平台，数据来源丰富可靠，如wiki百科、书籍、期刊论文、社区论坛和web网页，而国内占大头的是质量参差不齐的web网页。数据上的赶超需要时间上的积累，任重而道远！

国内外大模型数据集对比

算力因素：

大模型最核心的算力是GPU，我们以GPU作为衡量基准。GPU几乎被所有开发者首选的都是英伟达的A100/H100系列，包括国内除了华为的大厂，这是一个不得不承认的现实，而随着芯片禁令出台，国内厂商还买不到A100/H100了，只能买性能阉割的A800/H800，在算力上我们是受制于人的。

下图是2023年英伟达统计的H100和H800的出货量，苹果和Meta（Facebook）断崖式领先，他们一个是闭源大模型GPT4的算力支持者，一个是开源大模型LLaMA2的算力支持者，在开源和闭源内这两个模型绝对领先，算力的重要性可想而知。

英伟达高端芯片出货量对比

强如OpenAI，在缺少GPU时候也只能限制GPT-4turbo用户的访问数量，算力就是比谁的拳头大，硬性指标，除非我们国内GPU强势崛起，我们才能突破和海外厂商的劣势，昇腾加油吧！

GPU是处理的最小单元是token，token不是我们常见的汉字和单词，不过有个基本对应关系，1个token约等于0.75个英文单词这是业界相对公认的，有的机构研究说1000个token大约对应555个中文字，所以得出结论，同样的token下可以处理的英文单词更多，所以英文语料的训练效率高，中文语料训练更费钱，但也有机构给出相反的结论，如下图，在这个图中1个token大于等于1个汉字，按照这个结论中文训练反而更省钱。这里可以为各开发者借鉴的是使用不同的编码，token和汉字换算比例是不一样的，在算力相对紧缺时，可以通过优化编码的方式提升训练效率。

token和汉字对应关系

算法因素：

我不是算法工程师，在算法上没有发言权。仅谈谈个人看法，当前所有主流大模型的基座都是transformer，上层的框架、编码方式、训练手段、参数上存在差异，但因为transformer开源大家的技术不存在代差，差别应该在工程处理以及同数据、算力更好的结合。

什么是工程处理呢，敏感表达校验算一种，国内的大模型厂商面临更加严格的监管环境，比如很多的领域人物、事件都不能说，或者被迫加一些硬性处理表达的更符合监管要求，这其实是额外增加了输出逻辑的复杂度；再比如上下文处理，这个大家体验上感觉很明显，比如一个讨论购买电子产品的对话，聊了几句用户问“苹果怎么样”，GPT4可以准确的理解成是苹果手机或苹果电脑，而国内大模型很可能就回答成“很甜”。GPT在大模型上入局最早、经验最丰富，工程能力目前自然是领先的。

其他因素：

可能还有汉语表达的复杂性原因，比如这句话：“巴西队谁也踢不过，中国队谁也踢不过”，虽然其他语言也有类似的歧义表达，但很显然汉语的表达丰富性远超大部分语言，所以在汉语理解上国内大模型是下了功夫的，很多汉语理解场景能力超过GPT，但因为我们大模型主要处理中文语料，所以要额外付出很多精力，让数据处理更难做，放大了本来就处于劣势的数据。

“谁也踢不过”看你怎么理解

另外开发人员的理念不同，一位互联网大佬说过到OpenAI看到他们的工程师真是抱着改变时间的态度在工作的，OpenAI的公司理念也是让AI普惠世界，而不得不承认我们的大模型玩家都是抱着商业化、盈利的角度去做事的，所以大模型大部分的模式、技术创新都来自于海外，如最近的Mixtral的MOE、微软2.7b的小模型，我们大模型通常做应用和商业模式上的创新。

至于花多长时间才能“迎头赶上”，我现在还没看到，不知大家有何看法？

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。