打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
技术分析:国内大模型,为啥赶不上GPT4
userphoto

2023.12.31 上海

关注

国内大模型市场玩家可谓是你方唱罢我登场,BAT这样的互联网大厂做,IT巨头华为做、传统的AI厂商科大讯飞、商汤指望着大模型再现辉煌,还有百川、智谱这样顶着光环的创业厂商···

各家都发布了自己的大模型,然后霸占各大评测榜榜首总是GPT4,为什么国内这么多大模型都赶上不GPT4?

某大模型评测榜单

AI模型有三要素:数据、算法、算力。 数据的多寡与质量、算法先进性、算力充足性对模型效果起着决定性影响,本文试着从这几方面做个分析,帮助大家判断、选择适合自己的大模型。

数据因素:

讨论数据时首先要明确一点,机器翻译的数据和原生数据的质量是有不小差别的,比如一篇英文论文让机器翻译成中文,勉强是能看懂的水平。 所以假设互联网数据都是公开的,我们可以用国外英文(法语、西语···)数据,OpenAI可以用我们的中文数据,因为国内大模型厂商主要面向汉语人群服务,英文数据再多再好也不能成为模型训练数据的大头,GPT同理。

所以数据的比对就变成了英文(法语、西语···)数据和中文数据谁作为模型训练的质量更高?这个咱必须得承认,老外在数据上是有优势的,有研究机构分析了为何海外拥有更多开源高质量数据:

1)相对较好的开源互联网生态;2) 免费线上书籍、期刊的资源积累;3)学术界、互联网巨头研究部门、非盈利研究组织及其 背后的基金形成了开放数据集、发表论文-被引用的开源氛围。

而我们在数据管理上还存在不足,这是客观因素:

1)高质量数据集需要巨大资金投入,当前国内数据挖掘和数据治理的力度不足;2)国内相关公司不具有开源意识,数据无法在市场上自由流通;3)国内相关公司成立较晚,数据积累相对国外公司更少;4)学术领域中文数据集受重视程度低;5)国产数据集市场影响力及普及度较低等

事实也证明了缺乏高质量开源数据的情况下,仅依靠自身领域内的数据,哪怕质量很高,训练出来的模型通用能力也是不够的,典型如国内互联网巨头: 百度有万亿级的网页数据,数十亿的搜索数据 和图片数据、腾讯有微信公众号,微信搜索等优质数据,阿里有淘宝、天猫沉淀的电商数据和钉钉中的企业数据,而华为因为各大军团原因有丰富的B端行业数据,这些数据质量都很高,大厂们的数据治理能力也不在话下,而模型效果仍然比不上GPT4。

下图展示的是国内外大模型数据集的来源分布,从中可以看出海外大模型受益于若干高质量开源生态平台,数据来源丰富可靠,如wiki百科、书籍、期刊论文、社区论坛和web网页,而国内占大头的是质量参差不齐的web网页。数据上的赶超需要时间上的积累,任重而道远!

国内外大模型数据集对比

算力因素:

大模型最核心的算力是GPU,我们以GPU作为衡量基准。GPU几乎被所有开发者首选的都是英伟达的A100/H100系列,包括国内除了华为的大厂,这是一个不得不承认的现实,而随着芯片禁令出台,国内厂商还买不到A100/H100了,只能买性能阉割的A800/H800,在算力上我们是受制于人的。

下图是2023年英伟达统计的H100和H800的出货量,苹果和Meta(Facebook)断崖式领先,他们一个是闭源大模型GPT4的算力支持者,一个是开源大模型LLaMA2的算力支持者,在开源和闭源内这两个模型绝对领先,算力的重要性可想而知。

英伟达高端芯片出货量对比

强如OpenAI,在缺少GPU时候也只能限制GPT-4turbo用户的访问数量,算力就是比谁的拳头大,硬性指标,除非我们国内GPU强势崛起,我们才能突破和海外厂商的劣势,昇腾加油吧!

GPU是处理的最小单元是token,token不是我们常见的汉字和单词,不过有个基本对应关系,1个token约等于0.75个英文单词这是业界相对公认的,有的机构研究说1000个token大约对应555个中文字,所以得出结论,同样的token下可以处理的英文单词更多,所以英文语料的训练效率高,中文语料训练更费钱,但也有机构给出相反的结论,如下图,在这个图中1个token大于等于1个汉字,按照这个结论中文训练反而更省钱。这里可以为各开发者借鉴的是使用不同的编码,token和汉字换算比例是不一样的,在算力相对紧缺时,可以通过优化编码的方式提升训练效率。

token和汉字对应关系

算法因素:

我不是算法工程师,在算法上没有发言权。 仅谈谈个人看法,当前所有主流大模型的基座都是transformer,上层的框架、编码方式、训练手段、参数上存在差异,但因为transformer开源大家的技术不存在代差,差别应该在工程处理以及同数据、算力更好的结合。

什么是工程处理呢,敏感表达校验算一种,国内的大模型厂商面临更加严格的监管环境,比如很多的领域人物、事件都不能说,或者被迫加一些硬性处理表达的更符合监管要求,这其实是额外增加了输出逻辑的复杂度;再比如上下文处理,这个大家体验上感觉很明显,比如一个讨论购买电子产品的对话,聊了几句用户问“苹果怎么样”,GPT4可以准确的理解成是苹果手机或苹果电脑,而国内大模型很可能就回答成“很甜”。GPT在大模型上入局最早、经验最丰富,工程能力目前自然是领先的。

其他因素:

可能还有汉语表达的复杂性原因,比如这句话:“巴西队谁也踢不过,中国队谁也踢不过”,虽然其他语言也有类似的歧义表达,但很显然汉语的表达丰富性远超大部分语言,所以在汉语理解上国内大模型是下了功夫的,很多汉语理解场景能力超过GPT,但因为我们大模型主要处理中文语料,所以要额外付出很多精力,让数据处理更难做,放大了本来就处于劣势的数据。

“谁也踢不过”看你怎么理解

另外开发人员的理念不同,一位互联网大佬说过到OpenAI看到他们的工程师真是抱着改变时间的态度在工作的,OpenAI的公司理念也是让AI普惠世界,而不得不承认我们的大模型玩家都是抱着商业化、盈利的角度去做事的,所以大模型大部分的模式、技术创新都来自于海外,如最近的Mixtral的MOE、微软2.7b的小模型,我们大模型通常做应用和商业模式上的创新。

至于花多长时间才能“迎头赶上”,我现在还没看到,不知大家有何看法?

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
语言模型的前世今生与GPT的人生哲学
这篇科普让你Get所有大模型的核心知识点
重磅!OpenAI被“Open”!GPT-4可复制!
ChatGPT面临销毁?GPT
大模型技术发展研判及应用思考
王慧文豪掷3.4亿,众人都想复制ChatGPT|贰月大变局
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服