AMD MI300X正式发售，训练“小模型”超越英伟达GPU的最优解？

北京时间12月7日凌晨2点，AMD召开主题为“Advancing AI”发布会。

这场发布会说是AMD的产品发布会，事实上更接近AMD对外界展示其业务重心将专注于AI市场的决心，正如其董事长苏姿丰开场时的一句话：

“Is all about AI”。

重注AI的决心

发布会的开场，苏妈先强调了一下AMD对AI市场极高的预期——AI加速器市场规模在2027年将达到4000亿美元。

在今年八月时，AMD的预测还是1500亿，短短几个月时间预期足足上调两倍有余。

随后则是发布会的重头戏，苏姿丰宣布Instincy MI300X正式推出，且是市面上性能最强的芯片。

MI300X拥有超过1500亿单位的晶体管，拥有192GB内存，是H100的2.4倍，5.2TB/s的内存带宽，是H100的1.6倍。

毕竟H200还没上市，和H100对比也没什么问题。

此时苏妈请上了微软CTO Kevin Scott为其站台，Kevin表示微软将评估采用AMD的可能性。

随后则是用八块MI300X组合而成的AMD Instinct Platform平台，这是对标英伟达DGX/HGX的AI加速器平台，单卡的优势同样带来了加速器性能上的优势。

值得注意的是，该加速器平台内部的卡间带宽速度达到896GB/s，已经无限接近英伟达NVlink加持下的速度。

但同时，AMD表示在大模型的训练上，该加速器实际上与H100 HGX效率持平，但在推理速度上，由于更高的带宽和内存加持，效率要高于英伟达。

此时苏妈又请上甲骨文高级副总裁，并当场宣布甲骨文将采用AMD新品。随后又请上了Meta高级工程师，并宣布Meta Platforms将在数据中心采用AMD新品。

到此时，英伟达股价应声下跌1.3%。

下一个环节是AMD总裁介绍其软件生态，并宣布ROCm 6将在月末面世，同时展示了一下OpenAI的声援。

这一块观众显然兴致缺缺，YouTube直播间观看人数一下少了几千。

最后，AMD介绍它们在卡间互联的努力，即多个AMD Instinct Platform之间的互联。

在这一技术上，英伟达采用的是其独特的NVlink加持下的NVswitch，而AMD则是用以太网。

再补充了一些此前已经发布的MI300A和AMD Ryzen处理器的性能，就是这场发布会的全部内容。

截止发布会结束，AMD股价下跌1.17%。

总结来看，卡间互联，依旧是AMD最大的痛。

这块芯片如果属于英伟达，那它就是最强GPU

直接上结论：如果MI300X属于英伟达，它很可能会成为销量最好的GPU芯片。

首先，单从参数上来说，MI300X绝对是一位“跑分巨人”。

在大模型军备竞赛的当下，GPU的核心参数已经从“算力”过渡到“显存容量和带宽”这两个指标上了。

这也是为什么AMD在介绍MI300X的时候会突出强调其192GB的HBM，5.2TB/s的带宽和接近900GB/s的互联带宽，并且苏妈也反复强调“内存对AI很重要”。

再次简单科普一下原因，一套服务器的真实计算速度（FLOPs/s），是在“计算密度x带宽”与“峰值计算速度”这两个指标间取最小值。

因此光有算力没有带宽的芯片同样无法提供高效计算。

同时当下AI应用大量落地的时代厂商开始重视推理速度。推理速度和计算速度可以划上约等号，即是将用户输入的数据，通过训练好的大模型，再输出给用户有价值的信息的过程，也就是你等ChatGPT回复你的那段时间。

推理速度越快，回复速度越快，用户体验自然越好，但对于AI应用而言，不同难度等级的推理所需要的运算量天差地别。

打个比方，假设现在有一款和GPT-4同样强大的模型，但问他附近有什么好吃的足足花一分钟才能给出答案，但GPT-4只要一秒，这就是推理速度带来的差异。

这种推理速度上的差异延伸到应用生态上，则会影响应用的广度与深度，比如即时性要求更强的AI就必须拥有更高的带宽，最典型的案例就是自动驾驶技术。

在这两个因素的影响下，如今厂商们的通用做法都是把算力推到一个差不多的水平上，然后想尽办法提供更高的显存容量和带宽，英伟达刚发的H200相比于H100只提升了显存和带宽就是这个原因。

而在这两个指标上，MI300X要更优于H200。

AMD能够实现这一领先，得益于其名为“Chiplet”的芯片设计工艺，它实现了芯片设计的“模块化”。

下图是一块MI300系列的芯片，由四块有源中介层（AID）和围绕着的八个HBM组成。

AMD可以随意将不同数量的CPU和GPU组合在AID（也可以理解为一块SOC）中，从而形成MI300的不同变体，比如下图是MI300A的组成部分，右下角是三个八核CPU组成一个AID，其余三个AID则是由六个GPU组成。

因此MI300A更适合与同样是GPU+CPU组合而成的英伟达GH200作对比。

而在MI300X中，这四个AID由八个GPU构成，专为大模型推理而进行的优化，更接近H100/200这种纯粹的GPU芯片。

如果和H100的设计进行对比，差异更加明显。如下图所示，在CoWoS封装框中，仅有HBM和逻辑芯片两大部分，其余的辅助元器件被放在了封装框外侧。

而MI300系列，则可以将这些辅助部分一起封装进去，从而降低整块芯片的面积。

而更小的面积和各个部分更“近”的通信距离，意味着数据传输过程中的损耗更低。

再次科普，台积电的CoWoS封装先进就先进在这，封装越多的芯片就能提供更好的成本、散热以及吞吐带宽。

因此不难看出，MI300X本质上是一种基于Chiplet技术“像拼乐高一样造芯片”下，对MI300A的魔改，把CPU去掉换成GPU就得到了一块更适合大模型推理计算的芯片。

而正如上文所述，当下的竞争在短时间内迅速从单纯的算力切换到了内存和带宽竞争，在短期内显然难以设计一款专为这种需求而生的芯片，在英伟达通过A100和H100取得了绝对的竞争优势之后，AMD能够迅速推出这样一款芯片本身就说明其芯片设计能力并不落后。

可市场上对这块芯片的评价却是——“单卡跑分的巨人，集群生产的矮人。”

换句话说，这卡实验室用用还行，AI商用很可能差点味道。

单卡吊打英伟达，一万块堆一起就不行

就当下而言，这块芯片有两个短板——其一是老生常谈的CUDA生态，其二则是多卡互联效率问题。

前者比较好理解，因为支持C语言环境下的并行计算，使得CUDA一跃成为工程师的首选，也让GPU走上了通用处理器（GPGPU）的道路。

CUDA于2007年起步，而AMD的ROCm在2016年才发布，无论是在先发优势和通用性上都有着明显劣势。因此相对CUDA有30000多个软件包和400万以上的开发者，ROCm仅有500余个软件包和一般用“a few”来形容的开发者数量都成为了厂商购买AMD卡时不得不考虑的因素。

曾经有位私有云公司的CEO在接受采访时说过，他们也不是没想过转去买AMD的卡，但要把这些卡调试到正常运转至少需要两个月的时间。

其次则是多卡多机集群互联，这很可能是AMD与英伟达在AI商用领域最大的差距，同样也是英伟达能够牢牢占据头牌宝座的主要原因之一。

为实现高效运算推理，各大厂商买GPU动辄数万块，然后相互连接堆在一起形成一个超大数据中心，而多张GPU之间的通信同样存在效率问题，而卡间数据传输速度不足就成为了整个数据中心最短的那块板。

打个比方，如果任何两块GPU连一起都能实现1+1=2的效果，那么我们完全可以买一堆4090显卡拼在一起实现H100的效果，让美国禁令成为一张白纸。

英伟达的独家解决方案是NVlink，这可以理解为GPU之间的高速公路，专为多个GPU点对点通信而生，在其加持下H100/200的卡间传输速度达到900GB/s。

在NVlink技术的加持下，英伟达诞生了一块名为NVSwitch，专为卡间互联而生的芯片，这块芯片的诞生保证了多块英伟达GPU之间，也就是每一个由GPU构成的HGX/DGX箱子之间的传输速度同样高效。

AMD的Instinct Platform对标英伟达HGX/DGX

而MI300X公布的896GB/s Infinity Fabric带宽虽说也是卡间传输速度，并且基本等同于H100的速度，但这仅是在其AMD Instinct Platform中的卡间传输速度，也就是八个MI300X组合后形成的一个组合服务器内部的速度，并没有公布两个平台之间的传输速度。

也就是说，单论八块MI300X在纸面上的参数已经超越H200，但如果需要一万块一起用，很可能就比不上了。

外媒分析称，如果要训练一个参数量超大的大模型，数千块GPU假设需要一年的时间，而同样数量的MI300X则可能需要2-3年。

也有分析称，想要扩展超过8个MI300，就需要InfiniBand或是以太网，这些技术的传输速度要显著低于NVlink或是AMD的Infinity Fabric。

但反过来说，如果只用一个Instinct平台进行处理，那么它在理论上是要优于八块H200的。

更具体而言，官方推算一个由八块MI300X组成的Instinct平台可以处理700亿参数量，也就是说，如果要训练一个700亿参数量的模型，AMD很可能就是当下效率最优解。

总结来说，当下发生的一切对于英伟达来说绝对不算好消息。

首先是GPU参数竞争从算力转移到显存和带宽。在算力竞争时代，英伟达CUDA生态可以带来绝对的壁垒，毕竟想要最大化利用算力，还需要编程模型来进行配合，这时候CUDA的易用性显得极为重要。

因此可以说英伟达的1Flops算力性价比是高于AMD的，这时的AMD想要取得优势，就必须在相同性能和价格下拿出2甚至3Flops的算力，这并不容易，因此英伟达取得了绝对领先的优势。

但如今到了显存和带宽竞争时代，AMD的1GB显存和英伟达1GB不存在任何区别，MI300X的192GB显存明显优于H200的141GB，5.2TB/s的显存带宽也是优于H200的4.8TB/s的，8个HBM3显然比6个香。

这种标准化参数的军备竞赛给了AMD追赶的机会，CUDA的生态优势一定程度上被削弱。

同时，Chiplet技术也给了AMD更广阔的画饼空间，要知道以H200的芯片面积，堆6个HBM3很可能就是极限，而一个HBM3最多也就提供819GB/s的带宽，简单的数学，H200提供的4.8TB/s已经达到六个HBM3的最高速度了。

而Chiplet还能堆更多，比如同样使用该技术设计芯片的Inter，就宣称其下一款芯片会有10~12个HBM3。

接下来的时间里，“如何堆内存”就将成为各家军备竞赛的重点。

不过这边建议AMD和英伟达多花点心思在另一个芯片需求大国这，咱就说能不能魔改一块咱能用得上的？

全文完。

参考资料：

[1] AMD MI300 – Taming The Hype – AI Performance, Volume Ramp, Customers, Cost, IO, Networking, Software,Semianalysis

[2] 谈谈AMD Instinct MI300X超算芯片的规格/性能/产能 - 以及对照Nvidia的产品短板

[3] AMD – To Infinity And Beyond,Semianalysis

[4] AMD Instinct™ MI300 产品分析

[5] 没有英伟达的爆发力，AMD 回血太 “蜗牛”,海豚投研

[6] 深入了解 GPU 互联技术——NVLINK,又拍云

[7] 【万字长文】AMD Instinct MI300详细解析：超微半导体的光辉时刻

作者：张泽一

编辑：辛十四

视觉设计：疏睿

责任编辑：张泽一

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。