打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
AMD MI300X正式发售,训练“小模型”超越英伟达GPU的最优解?

北京时间12月7日凌晨2点,AMD召开主题为“Advancing AI”发布会。

这场发布会说是AMD的产品发布会,事实上更接近AMD对外界展示其业务重心将专注于AI市场的决心,正如其董事长苏姿丰开场时的一句话:

“Is all about AI”。

重注AI的决心

发布会的开场,苏妈先强调了一下AMD对AI市场极高的预期——AI加速器市场规模在2027年将达到4000亿美元。

在今年八月时,AMD的预测还是1500亿,短短几个月时间预期足足上调两倍有余。

随后则是发布会的重头戏,苏姿丰宣布Instincy MI300X正式推出,且是市面上性能最强的芯片。

MI300X拥有超过1500亿单位的晶体管,拥有192GB内存,是H100的2.4倍,5.2TB/s的内存带宽,是H100的1.6倍。

毕竟H200还没上市,和H100对比也没什么问题。

此时苏妈请上了微软CTO Kevin Scott为其站台,Kevin表示微软将评估采用AMD的可能性。

随后则是用八块MI300X组合而成的AMD Instinct Platform平台,这是对标英伟达DGX/HGX的AI加速器平台,单卡的优势同样带来了加速器性能上的优势。

值得注意的是,该加速器平台内部的卡间带宽速度达到896GB/s,已经无限接近英伟达NVlink加持下的速度。

但同时,AMD表示在大模型的训练上,该加速器实际上与H100 HGX效率持平,但在推理速度上,由于更高的带宽和内存加持,效率要高于英伟达。

此时苏妈又请上甲骨文高级副总裁,并当场宣布甲骨文将采用AMD新品。随后又请上了Meta高级工程师,并宣布Meta Platforms将在数据中心采用AMD新品。

到此时,英伟达股价应声下跌1.3%。

下一个环节是AMD总裁介绍其软件生态,并宣布ROCm 6将在月末面世,同时展示了一下OpenAI的声援。

这一块观众显然兴致缺缺,YouTube直播间观看人数一下少了几千。

最后,AMD介绍它们在卡间互联的努力,即多个AMD Instinct Platform之间的互联。

在这一技术上,英伟达采用的是其独特的NVlink加持下的NVswitch,而AMD则是用以太网。

再补充了一些此前已经发布的MI300A和AMD Ryzen处理器的性能,就是这场发布会的全部内容。

截止发布会结束,AMD股价下跌1.17%。

总结来看,卡间互联,依旧是AMD最大的痛。

这块芯片如果属于英伟达,那它就是最强GPU

直接上结论:如果MI300X属于英伟达,它很可能会成为销量最好的GPU芯片。

首先,单从参数上来说,MI300X绝对是一位“跑分巨人”。

在大模型军备竞赛的当下,GPU的核心参数已经从“算力”过渡到“显存容量和带宽”这两个指标上了。

这也是为什么AMD在介绍MI300X的时候会突出强调其192GB的HBM,5.2TB/s的带宽和接近900GB/s的互联带宽,并且苏妈也反复强调“内存对AI很重要”。

再次简单科普一下原因,一套服务器的真实计算速度(FLOPs/s),是在“计算密度x带宽”与“峰值计算速度”这两个指标间取最小值。

因此光有算力没有带宽的芯片同样无法提供高效计算。

同时当下AI应用大量落地的时代厂商开始重视推理速度。推理速度和计算速度可以划上约等号,即是将用户输入的数据,通过训练好的大模型,再输出给用户有价值的信息的过程,也就是你等ChatGPT回复你的那段时间。

推理速度越快,回复速度越快,用户体验自然越好,但对于AI应用而言,不同难度等级的推理所需要的运算量天差地别。

打个比方,假设现在有一款和GPT-4同样强大的模型,但问他附近有什么好吃的足足花一分钟才能给出答案,但GPT-4只要一秒,这就是推理速度带来的差异。

这种推理速度上的差异延伸到应用生态上,则会影响应用的广度与深度,比如即时性要求更强的AI就必须拥有更高的带宽,最典型的案例就是自动驾驶技术。

在这两个因素的影响下,如今厂商们的通用做法都是把算力推到一个差不多的水平上,然后想尽办法提供更高的显存容量和带宽,英伟达刚发的H200相比于H100只提升了显存和带宽就是这个原因。

而在这两个指标上,MI300X要更优于H200。

AMD能够实现这一领先,得益于其名为“Chiplet”的芯片设计工艺,它实现了芯片设计的“模块化”。

下图是一块MI300系列的芯片,由四块有源中介层(AID)和围绕着的八个HBM组成。

AMD可以随意将不同数量的CPU和GPU组合在AID(也可以理解为一块SOC)中,从而形成MI300的不同变体,比如下图是MI300A的组成部分,右下角是三个八核CPU组成一个AID,其余三个AID则是由六个GPU组成。

因此MI300A更适合与同样是GPU+CPU组合而成的英伟达GH200作对比。

而在MI300X中,这四个AID由八个GPU构成,专为大模型推理而进行的优化,更接近H100/200这种纯粹的GPU芯片。

如果和H100的设计进行对比,差异更加明显。如下图所示,在CoWoS封装框中,仅有HBM和逻辑芯片两大部分,其余的辅助元器件被放在了封装框外侧。

而MI300系列,则可以将这些辅助部分一起封装进去,从而降低整块芯片的面积。

而更小的面积和各个部分更“近”的通信距离,意味着数据传输过程中的损耗更低。

再次科普,台积电的CoWoS封装先进就先进在这,封装越多的芯片就能提供更好的成本、散热以及吞吐带宽。

因此不难看出,MI300X本质上是一种基于Chiplet技术“像拼乐高一样造芯片”下,对MI300A的魔改,把CPU去掉换成GPU就得到了一块更适合大模型推理计算的芯片。

而正如上文所述,当下的竞争在短时间内迅速从单纯的算力切换到了内存和带宽竞争,在短期内显然难以设计一款专为这种需求而生的芯片,在英伟达通过A100和H100取得了绝对的竞争优势之后,AMD能够迅速推出这样一款芯片本身就说明其芯片设计能力并不落后。

可市场上对这块芯片的评价却是——“单卡跑分的巨人,集群生产的矮人。”

换句话说,这卡实验室用用还行,AI商用很可能差点味道。

单卡吊打英伟达,一万块堆一起就不行

就当下而言,这块芯片有两个短板——其一是老生常谈的CUDA生态,其二则是多卡互联效率问题。

前者比较好理解,因为支持C语言环境下的并行计算,使得CUDA一跃成为工程师的首选,也让GPU走上了通用处理器(GPGPU)的道路。

CUDA于2007年起步,而AMD的ROCm在2016年才发布,无论是在先发优势和通用性上都有着明显劣势。因此相对CUDA有30000多个软件包和400万以上的开发者,ROCm仅有500余个软件包和一般用“a few”来形容的开发者数量都成为了厂商购买AMD卡时不得不考虑的因素。

曾经有位私有云公司的CEO在接受采访时说过,他们也不是没想过转去买AMD的卡,但要把这些卡调试到正常运转至少需要两个月的时间。

其次则是多卡多机集群互联,这很可能是AMD与英伟达在AI商用领域最大的差距,同样也是英伟达能够牢牢占据头牌宝座的主要原因之一。

为实现高效运算推理,各大厂商买GPU动辄数万块,然后相互连接堆在一起形成一个超大数据中心,而多张GPU之间的通信同样存在效率问题,而卡间数据传输速度不足就成为了整个数据中心最短的那块板。

打个比方,如果任何两块GPU连一起都能实现1+1=2的效果,那么我们完全可以买一堆4090显卡拼在一起实现H100的效果,让美国禁令成为一张白纸。

英伟达的独家解决方案是NVlink,这可以理解为GPU之间的高速公路,专为多个GPU点对点通信而生,在其加持下H100/200的卡间传输速度达到900GB/s。

在NVlink技术的加持下,英伟达诞生了一块名为NVSwitch,专为卡间互联而生的芯片,这块芯片的诞生保证了多块英伟达GPU之间,也就是每一个由GPU构成的HGX/DGX箱子之间的传输速度同样高效。

AMD的Instinct Platform对标英伟达HGX/DGX

而MI300X公布的896GB/s Infinity Fabric带宽虽说也是卡间传输速度,并且基本等同于H100的速度,但这仅是在其AMD Instinct Platform中的卡间传输速度,也就是八个MI300X组合后形成的一个组合服务器内部的速度,并没有公布两个平台之间的传输速度。

也就是说,单论八块MI300X在纸面上的参数已经超越H200,但如果需要一万块一起用,很可能就比不上了。

外媒分析称,如果要训练一个参数量超大的大模型,数千块GPU假设需要一年的时间,而同样数量的MI300X则可能需要2-3年。

也有分析称,想要扩展超过8个MI300,就需要InfiniBand或是以太网,这些技术的传输速度要显著低于NVlink或是AMD的Infinity Fabric。

但反过来说,如果只用一个Instinct平台进行处理,那么它在理论上是要优于八块H200的。

更具体而言,官方推算一个由八块MI300X组成的Instinct平台可以处理700亿参数量,也就是说,如果要训练一个700亿参数量的模型,AMD很可能就是当下效率最优解。

总结来说,当下发生的一切对于英伟达来说绝对不算好消息。

首先是GPU参数竞争从算力转移到显存和带宽。在算力竞争时代,英伟达CUDA生态可以带来绝对的壁垒,毕竟想要最大化利用算力,还需要编程模型来进行配合,这时候CUDA的易用性显得极为重要。

因此可以说英伟达的1Flops算力性价比是高于AMD的,这时的AMD想要取得优势,就必须在相同性能和价格下拿出2甚至3Flops的算力,这并不容易,因此英伟达取得了绝对领先的优势。

但如今到了显存和带宽竞争时代,AMD的1GB显存和英伟达1GB不存在任何区别,MI300X的192GB显存明显优于H200的141GB,5.2TB/s的显存带宽也是优于H200的4.8TB/s的,8个HBM3显然比6个香。

这种标准化参数的军备竞赛给了AMD追赶的机会,CUDA的生态优势一定程度上被削弱。

同时,Chiplet技术也给了AMD更广阔的画饼空间,要知道以H200的芯片面积,堆6个HBM3很可能就是极限,而一个HBM3最多也就提供819GB/s的带宽,简单的数学,H200提供的4.8TB/s已经达到六个HBM3的最高速度了。

而Chiplet还能堆更多,比如同样使用该技术设计芯片的Inter,就宣称其下一款芯片会有10~12个HBM3。

接下来的时间里,“如何堆内存”就将成为各家军备竞赛的重点。

不过这边建议AMD和英伟达多花点心思在另一个芯片需求大国这,咱就说能不能魔改一块咱能用得上的?

全文完。

参考资料:

[1] AMD MI300 – Taming The Hype – AI Performance, Volume Ramp, Customers, Cost, IO, Networking, Software,Semianalysis

[2] 谈谈AMD Instinct MI300X超算芯片的规格/性能/产能 - 以及对照Nvidia的产品短板

[3] AMD – To Infinity And Beyond,Semianalysis

[4] AMD Instinct™ MI300 产品分析

[5] 没有英伟达的爆发力,AMD 回血太 “蜗牛”,海豚投研

[6] 深入了解 GPU 互联技术——NVLINK,又拍云

[7] 【万字长文】AMD Instinct MI300详细解析:超微半导体的光辉时刻

作者:张泽一

编辑:辛十四

视觉设计:疏睿

责任编辑:张泽一

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
昨晚,她宣战黄仁勋
苏妈AMD全力押注AI,摘取“英伟达AI王冠”的野心!(亿道信息)
一代女王,宣战黄仁勋
Nvidia要真正崛起,先跨越这些竞争者
AMD的翻身仗
1530亿颗晶体管!AMD甩出最强AI芯片,单个GPU跑大模型
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服