打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中金 | AI浪潮之巅系列:大模型推动大算力,通信传输再升级
userphoto

2023.07.23 河北

关注

我们认为AI大模型快速发展,新投资需求有望驱动算力指数级增长。处理器与处理器间、处理器与存储间的数据交互将更加频繁,也对接口传输速率提出更高要求。服务器内板上通信技术迎来大规模升级,这将推动接口通信芯片、封装技术以及PCB材料等规格大幅提升,带来新的市场机遇。

摘要

PCIe总线持续升级,NVLink引领服务器内部通信新变革。PCIe平均每三年升级一代标准,目前市场呈现多世代并存局面,我们认为在高性能服务器需求高增趋势下,CPU迭代有望加速PCIe 5.0大规模商用进程;同时,PCIe Retimer和Switch芯片在高速PCIe通路中发挥重要作用,市场空间可期。在AI异构计算场景中,算力的持续增强不仅依赖单张GPU卡的性能提升,还需要多卡高效聚合,NVLink成为实现多GPU间高速互联的关键通道,并引入基于NVLink高级通信能力构建的NVSwitch芯片以解决GPU间通讯不均衡问题,进而构成全带宽连接的多节点GPU集群。

先进封装技术不断进阶,ABF载板景气提升。众核异构方案推动先进封装技术向更高连接密度演进,全球先进封装需求呈增长态势,其中Fan-out、2.5D/3D封装市场增速领跑行业。从先进封装材料看,我们认为ABF载板作为CPU、GPU等高运算性能芯片的重要承载,有望受益于AI浪潮带来的高算力芯片需求激增;同时,Chiplet异构集成下裸片间连接需求增加,ABF载板面积增加、且载板消耗量因良率下降而增加,先进载板需求进一步向上。

PCB高速化带动板材升级,上游树脂材料有望向PPO切换。得益于服务器平台持续迭代、叠加以更高端PCB为算力载体的AI服务器需求高涨,我们认为由M6及以上覆铜板材料制成的超过16层的PCB有望在服务器市场中快速渗透,PCB板有望迎来量价齐升。聚焦覆铜板上游树脂材料,我们看好聚苯醚(PPO)凭借改性后优异的电化学性能(低介电损耗、高加工稳定性、耐热性等)逐步取代传统树脂,在下游高端服务器需求增长、覆铜板高频高速化发展的驱动下,改性PPO市场增长空间广阔。

风险

AI商业落地进展不及预期的风险,云厂商算力相关资本开支不及预期。

正文

AI高算力需求牵引服务器内高速通信技术迭代升级

AI大模型迭出带来数据处理量指数级增长,带动AI云端算力需求快速拉升。自2022年下半年以来AIGC(AI-Generated Content,人工智能生成内容)实现技术和产业端的快速发展。以OpenAI GPT系列的版本演进为例,从GPT-1(2018.06)到GPT-2(2019.02)、GPT-3(2020.05)、GPT-3.5(2022.11)、GPT-4(2023.03),参数量和语料库持续升级。目前AI超大模型的参数已经达到千亿、甚至万亿数量级,且在训练过程中,各类中间变量均需要存储,以上海量数据对训练场景下的算力和显存需求均提出了高要求。中国信通院预计,2030年全球算力总规模有望达到56ZFlps,2021-2030年CAGR约65%,其中智能算力贡献主要增长动能。

图表1:大模型参数量对比

注:截至2023年6月
资料来源:北京智源人工智能研究院,中金公司研究部

服务器内部各种高速连接需求大幅增长,需要承载量更大的传输通道作为支撑。我们观察到,GPT-3.5模型训练所使用的微软Azure AI云计算平台采用了分布式训练“多卡多机”的模式,涉及大量数据在GPU之间、GPU与CPU、GPU与内存等单元之间的传输,并增加了跨服务器的通信需求,服务器内部板上通信技术迎来大规模升级。此外,AI算力的提升方式,除了依靠单体GPU卡的算力迭代,还需要高速的芯片互联技术作为有力支撑,从而实现多颗GPU之间的高效聚合、提升GPU算力的可扩展性,进而形成强大的集群算力。我们认为,为提升异构并行处理超大数据量的效率,板上芯片间互联、片内Die间互联总线均需升级。

主板总线:板内数据运送的管道

PCIe:服务器内主流总线,不断向高规格演进

总线是服务器主板传输数据的通路。总线负责CPU与PCH(Platform Controller Hub,平台管理器中枢)、PCH与功能芯片之间的连接,其类型包括QPI、PCIe、DMI、SATA、SAS、SPI、USB等。其中,CPU与CPU之间通过QPI总线进行通信,CPU与PCIe设备通过PCIe总线连接,PCH与USB、SATA硬盘、SAS硬盘和网卡分别通过USB总线、SATA总线、SAS总线、PCIe总线连接,CPU与内存之间通过内存总线连接。

图表2:以CPU为核心的服务器主板架构与各类总线

资料来源:CSDN,中金公司研究部

► QPI(Quick Path Interconnect,快速通道互联):取代前端总线FSB(Front Side Bus)的一种串行式高速点对点连接协议,用于连接CPU、内存控制器和其他处理器组件,还可以实现多个处理器之间的直接互联和快速通信,具有高带宽、低功耗、支持热插拔的特点。

► PCIe(Peripheral Component Interconnect Express,高速串行扩展总线):PCIe主要用于连接CPU与各类高速外围设备,如GPU、SSD、网卡、显卡等。相比于上一代采用并行架构的PCI总线,PCIe通过多对高速串行的差分信号进行高速传输,其所连接的设备均独享通道带宽,可以使用更高的时钟频率、更少的信号线和更高的总线带宽,因此PCIe总线的传输效率更高、功耗更低、可扩展性更强,已取代PCI成为服务器中最广泛使用的系统总线。

► Memory Bus(内存总线):用来实现处理器和内存之间的连接,处理器内集成的内存控制器可以通过内存总线和内存模组进行寻址、读写等通讯。DDR即一种内部总线,其版本与内存的频率和带宽相关。

► DMI(Direct Media Interface,直接媒体接口):最初用于连接主板南北桥芯片,目前负责CPU和PCH主板芯片组之间的通信。由于DMI是基于PCIe总线协议进行传输,因此具有PCIe的优势。

PCIe的传输速率与通道数有关。一般来说,每个PCIe Lane(通道)由一对差分信号组成,发送和接收同时进行,一个发送方向的差分信号包含TX+和TX-两条数据线,因此一条Lane(也称为x1)有四根数据线。PCIe连接可以通过增加通道数扩展端口总带宽,目前有PCIe x1、PCIe x2、PCIe x4、PCIe x8、PCIe x16、PCIe x32六种插槽配置,对应1/2/4/8/16/32通道,插槽长度也随着通道数的增加而拉长。

PCIe具有良好的向后兼容性,平均每三年升级一代标准,单通道速率翻倍增长。根据PCI-SIG官网,伴随人工智能、自动驾驶、AR/VR等具有高运算要求的应用快速发展,处理器I/O带宽每三年实现翻番,也促使PCIe基本上按照3年一代的速度更新演进,数据传输速率呈现垂直性增长态势,先行于I/O带宽需求增长。PCIe最早由Intel于2001年提出,2003年正式推出PCIe 1.0版本,到2022年已迭代至6.0。6.0版本是PCIe问世以来变化最大的一代,相较于PCIe 5.0其突出变化有:1)单通道数据速率从32GT/s翻倍至64GT/s;2)信号调制方式从NRZ转向PAM4,可以在单个通道、同样时间内封包更多数据;3)引入FLIT(流控单元)将数据分解为固定大小的数据包,提高了带宽效率。2022年6月,PCI-SIG联盟宣布PCIe 7.0版规范,单条通道(x1)单向可实现128GT/s传输速率,计划于2025年推出最终版本。

图表3:PCIe技术发展路线及不同版本规格参数

注:Flit Mode*表示流控单元模式,以Flit为最小单位进行数据传输
资料来源:PCI-SIG官网,中金公司研究部

从产品落地看,多世代并行竞争,CPU迭代加速PCIe 5.0大规模商用。以PCIe SSD为例,市场呈现出多版本并存的局面,根据Forward Insights(3Q21)数据,2021年PCIe 3.0、4.0在所有数据中心PCIe SSD市场中的份额分别为81%和19%,Forward Insights预测,随着PCIe 4.0系统生态逐渐构建以及成本下探,到2025年PCIe 4.0的渗透率有望达到77%。同时,各大CPU厂商积极布局PCIe 5.0硬件平台,英特尔率先在其Alder lake平台上采用支持PCIe 5.0标准的处理器,2023年1月又推出支持PCIe 5.0总线的最新一代CPU平台Sapphire Rapids;AMD于2022年推出支持PCIe 5.0的第四代EPYC处理器Genoa。展望未来,我们认为短期来看PCIe 4.0与5.0高低规混合应用仍是市场主流,通用型主机与周边装置使用成本较低的PCIe 4.0,PCIe 5.0则率先在数据吞吐量更高的高性能服务器市场中发挥主流价值,但随着CPU不断迭代升级,PCIe 5.0大规模商用进程或有望加速。

图表4:2005-2023年CPU龙头厂商CPU平台演进情况

资料来源:Intel官网,AMD官网,中金公司研究部

Retimer和Switch芯片为PCIe技术锦上添花

PCIe标准迭代过程中信号插损也随之增加,引入信号调理技术可有效改善信号质量。PCIe速率持续翻倍增长,但受限于工业标准,服务器主板尺寸的延展空间有限,导致全链路的插损预算从PCIe3.0标准下的22dB增加到了PCIe 5.0标准下的36Db@16GHz(包括CPU和AIC芯片封装在内的端到端总链路损耗)。为应对愈演愈烈的信号插损问题,PCIe从4.0时期开始引入信号调理芯片:1)PCIe Retimer:Retimer是一种数模混合器件,其工作原理是通过内部嵌有的时钟数据恢复(CDR)电路提取输入信号中的嵌入式时钟,再使用未经衰减变形的时钟信号重新传输数据,从而提升信号完整性并消除信号抖动影响。2)PCIe Redriver:通过发射端的驱动器和接收端的滤波器提升信号强度,从而实现对信号损耗的补偿。对比来看,Retimer的功能原理更加复杂,能够实现比Redriver更优的降低信道损耗效果,但由于增加了数据处理过程时延有所拉长。

图表5:PCIe Redriver和PCIe Retimer原理对比

资料来源:TI官网,中金公司研究部

人工智能发展大幅增加高速数据传输需求,PCIe Retimer渗透率有望进一步提升。Retimer芯片能够提升服务器、企业存储、异构计算和通信系统中数据传输时信号的完整性,典型应用场景包括NV Me SSD、AI服务器、Riser Card等。根据Astera Labs公司官网,一台8卡GPU的AI服务器可配置8颗PCIe 4.0 Retimer芯片,主要用于提升GPU与CPU之间、CPU与SSD之间信号通讯的稳定性。我们认为,在AI大模型及应用快速发展的浪潮下,AI服务器市场有望维持高景气度、且服务器内部高速硬件数据交互需求将不断增长,PCIe Retimer凭借更好的降低通道物理损耗的效果,在AI服务器和存储系统的应用比率有望显著提升,逐渐成为行业主流方案。

图表6:PCIe Retimer芯片在服务器中的多应用

资料来源:澜起科技公司官网,中金公司研究部

图表7:PCIe Retimer芯片在AI服务器中的配置情况

注:图中RT即PCIe Retimer芯片

资料来源:Astera Labs公司官网,中金公司研究部

PCIe Switch兼具连接、交换功能,有效拓展PCIe链路。PCIe采用端到端的连接方式,因此每一条PCIe链路两端只能各连接一个设备,在需要高速数据传输和大量设备连接的场景中连接数量和速度受限。PCIe Switch芯片能够将多条PCIe总线连接在一起,形成一个高速的PCIe互联网络,从而实现多设备通信,具有高可拓展性、低功耗、低延迟、高可靠性、高灵活性等优势,广泛应用于机器学习、人工智能、超融合部署和存储系统中。从PCIe Switch内部结构看,其由多个PCI-PCI桥接构成,实现从单条线到多条线的发散。我们认为,AI高算力场景推升高速数据互联需求,PCIe Switch作为数据中心低功耗、高性能解决方案的核心一环有望迎来高增长。根据Transparency市场调研机构数据,2027年全球PCIe Switch市场规模或将达到92亿美元,2019-2027年CAGR约15%。

图表8:PCIe Switch连接多条PCIe总线

资料来源:PCI-SIG官网,中金公司研究部

NVLink、Infinity Fabric等新技术赋能AI异构计算场景

以CPU+GPU为代表的异构并行计算架构广泛应用于AI/HPC场景。CPU(中央处理器)大部分面积用于逻辑控制单元和存储,计算单元只占小部分,因此并行计算能力受到较大限制;而GPU(图形处理器)比CPU拥有更多的算力逻辑单元,适合密集型数据的并行处理。在AI云端场景下,运算对象是大量类型统一的数据,以并行运算为主,采用CPU+GPU异构计算架构能够满足海量数据的处理需求,CPU与GPU协同工作,CPU主要负责控制和管理系统的整体运行,而GPU则用于执行高度并行的计算任务。

多GPU间通信时PCle或存在带宽瓶颈,新互联技术应运而生。算力的持续增强不仅依靠单张GPU卡的性能提升,往往还需要多GPU卡组合。在多GPU系统内部,GPU间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能,其他专用互联技术应运而生,如英伟达提出的NVLink、AMD提出的Infinity Fabric等。根据英伟达官网,对比基于PCIe的系统,基于NVLink的系统在交换/排序/3D FTT性能上分别提升约5倍、1.4倍、2倍。

NVLink+NVSwitch:实现GPU间高速互联的关键使能者

NVLink是GPU之间通信所采用的点对点互联协议,与GPU体系同步演进。英伟达针对异构计算场景于2016年开发了NVLink技术,NVLink通过GPU之间的直接互联,可扩展服务器内的多GPU输入/输出(I/O),提供相较于传统PCIe总线更加快速、更低延迟的系统内互联解决方案。第一代NVLink搭载在基于Pascal架构的NVIDIA P100 GPU上,传输速率为160GB/s,之后随着NVIDIA GPU体系结构的演进而同步迭代升级。根据英伟达官网,目前NVLink已迭代至第四代,可为多GPU系统配置提供高于以往1.5倍的带宽以及更强的可扩展性,单NVIDIA H100 Tensor Core GPU中包含18条第四代NVLink链路,总带宽达到900 GB/s,是PCIe 5.0带宽的7倍。

NVSwitch是NVLink技术的延伸,解决GPU间通讯不均衡问题。在DGX P100架构中,8个GPU通过NVLink形成环状连接,无法完全实现点对点的连接。为了解决上述GPU之间通讯不均衡问题,引入基于NVLink高级通信能力构建的NVSwitch芯片能够在节点间扩展NVLink,创建无缝、高带宽的多节点GPU集群,实现所有GPU在一个具有全带宽连接的集群中协同工作。例如,在DGX V100架构中,每张V100 GPU卡上有6路NVLink,分别连接到6颗NVSwitch芯片上构成一个基板,两块基板之间再通过NVSwitch的另一侧接口完全互联在一起,形成16路全连接的GPU架构。英伟达在NVIDIA H100 Tensor Core GPU中引入第三代NVSwitch和第四代NVLink,NVSwitch单芯片上共有64个NVLink 4.0端口,能够以900GB/s的速度互连每对GPU,聚合总带宽达到7.2TB/s。

图表9:NVLink的性能发展历程

资料来源:英伟达官网,中金公司研究部

图表10:NVLink和NVSwitch各世代规格参数

资料来源:英伟达官网,中金公司研究部

AI服务器中包含多种总线协议。以 NVIDIA HGX H100 8-GPU为例,该服务器内部包含NVLink、PCIe和QPI等主板总线。具体来看,该服务器拥有8个H100 Tensor Core GPU和4个第三代NVSwitch,每个H100 GPU共通过18个NVLink 4.0(5+4+4+5)连接到4个NVSwitch芯片。每个NVSwitch相当于一个完全无拥塞的交换机,与8张H100 GPU卡实现完全连接。GPU与CPU之间通过PCIe 5.0总线实现互联,CPU之间则仍使用QPI总线进行通信。

图表11:英伟达HGX H100 8-GPU结构框图

资料来源:英伟达官网,中金公司研究部

Infinity Fabric:片上模块信息传输的高速通路

Infinity Fabric(IF)是基于片上总线架构的高速互联技术,能够实现高带宽和低延迟的数据通信。IF由AMD于2017年首次提出,并在Zen架构中首次引入,用于连接各个CCX模块、I/O、内存控制器等组件。根据AMD-CDNA2代白皮书,AMD-CDNA2中的IF接口连接可以显著减少延迟,提供25Gbps的接口带宽,最大双向带宽可达400Gbps。拆分来看,IF由Infinity Scalable Data Fabric (SDF) 和Infinity Scalable Control Fabric (SCF)两个系统组成。SDF实现数据传输的高拓展性,通过数十个连接点路由数据往返,保障了多引擎环境下的可扩展性;SCF则负责传输命令和控制。以AMD基于Zen架构和Zeppelin SoC的处理器为例,SDF通过CCM、IOMS等模块连接CCX核心和I/O组件。

图表12:Infinity Fabric由SCF、SDF两个部分组成

资料来源:Wikichip,中金公司研究部

Die间总线:裸片互联的关键通道

Die间互联总线是用于实现裸片之间通信的协议。Die间总线作为裸片互联的关键通道,允许每颗裸片访问其他裸片上的功能模块,形成Die间资源共享、高效协作,从而实现高带宽、低延迟和具备可靠性的通信。主流Die间总线包括HBM、IFOP、Interlaken、CCIX、NVLink-C2C等。

► HBM(High-Bandwidth Memory,高带宽显存):HBM是一种高端的内存技术标准,由JEDEC(电子工业联合会)制定和管理,从2013年面世至今已经推出HBM、HBM2、HBM2E、HBM3四个版本,其中HBM2E为目前主流标准。HBM可以利用硅通孔(TSV)技术进行芯片堆叠,并与GPU位于同一物理封装内,从而节省能耗及空间,以便在系统中安装更多GPU。通过TSV堆栈的方式,HBM能达到更高的I/O数量,使得显存位宽达到1,024位,几乎是GDDR的32x,显存带宽显著提升,此外还具有更低功耗、更小外形等优势。我们认为,显存带宽显著提升解决了过去AI计算“内存墙”的问题,HBM在中高端数据中心GPU中的渗透率有望逐步提高。

图表13:HBM标准迭代

资料来源:SK Hynix官网,中金公司研究部

图表14:HBM与其余芯片互联示意图

资料来源:SK Hynix官网,英伟达官网,中金公司研究部

► IFOP(Infinity Fabric On-Package):IFOP将Infinity Fabric架构扩展到芯片封装内部,实现Die间的高速通信。我们在上一章节指出Infinity Fabric由传输数据的SDF和负责控制的SCF组成,AMD在SDF上设计了一种适用于封装内部短距离的SerDes,借助32位低摆幅单端数据传输和差分时钟实现约2pJ/b的功耗效率。得益于片上和Die间IF总线在逻辑层实现互通,片上与Die间连接协议无需转换,通信效率得到提升。

► NVLink-C2C:NVLink-C2C是对NVLink的拓展,借助先进封装技术支持多种裸芯互连,包括CPU、GPU、DPU、NIC及SoC等。相较于NVIDIA芯片上的PCIe Gen 5 PHY,NVLink-C2C在能效方面提升约25倍、面积效率提升约90倍。在Grace Hopper Superchip中,NVLink-C2C支持Grace CPU以900 GB/s的双向带宽与Hopper GPU进行通信,总带宽约为x16 PCIe Gen5链路的7倍。此外,NVLink-C2C支持低延迟的内存一致性,能够减少CPU、GPU之间的等待时间,提升系统效率。

图表15:NVLink-C2C实现Grace CPU和Hopper GPU之间的高效通信

资料来源:英伟达官网,中金公司研究部

后摩尔时代众核异构更具成本、良率优势,推动Die间通信需求增长。随着晶圆制程不断迭代,每代研发成本增幅扩大,摩尔定律日趋放缓。据IBS统计,开发28nm/16nm/7nm/5nm制程芯片的研发投入分别为0.51/1.06/2.98/5.42亿美元,每次迭代成本近乎翻倍。此外,单芯面积与制造良率存在反比关系,举例来看,在5nm至3nm的迭代过程中,因3nm晶圆制造缺陷密度较高,随着单颗芯片面积的增长,良率下降幅度较大。进入后摩尔时代,Intel和AMD均采用多Die拓展的技术路线,以确保在可接受的成本下进一步提升集成度和性能,众核/众核异构系统逐渐取代单一大芯片,Die与Die之间的通信需求随之增加。展望未来,我们认为随着AI任务的复杂度不断提升,AI服务器的算力需求也将同步上升,众核异构趋势下Die间通信需求顺势上行,Die间总线作为Die间高效沟通的重要路径也有望成长进阶。

图表16:不同制程及封装技术下的芯片良率、成本、面积的关系

注:D为缺陷密度,c为负二项分布中的集群参数或Seed’s model中临界值数量
资料来源:Yinxiao Feng and Kaisheng Ma《Chiplet Actuary: A Quantitative Cost Model and Multi-Chiplet Architecture Exploration》(2022),中金公司研究部

Chiplet(芯粒)是众核异构的热门方案之一,能够平衡大芯片的算力需求与成本。Chiplet的实质是硅片级别的IP复用,能够将一些预先在工艺线上生产好的可实现特定功能的芯片裸片(Die)通过先进封装技术互连,从而形成系统级芯片。Chiplet的优势在于:1)成本:基于不同功能的IP(如存储器、CPU等)灵活选择不同的制程工艺进行生产,最优配置功能模块并且不必受限于晶圆厂工艺,实现计算性能与成本的灵活平衡。2)算力:能够突破单芯的面积限制,实现更高算力的芯片系统。3)通信带宽:访存带宽通常是高性能CPU以及AI芯片的性能瓶颈,Chiplet采用高密度、高速封装和互连设计,能够有效提升计算和存储、计算和计算之间的带宽与信号传输质量,缓解“存储墙”问题。4)存储容量:Chiplet方案可以实现在单个封装体内多次堆叠,在增加存储容量的同时保持小型化。

图表17:Chiplet可以实现集成异构化

资料来源:eefocus与非网,中金公司研究部

Chiplet各裸片间的互连接口和协议对于Chiplet实现规模应用十分关键,是实现异构集成的必要条件之一。Chiplet裸片的互连接口和协议设计需要考虑与工艺制程及封装技术的适配、系统集成及扩展等复杂要素,同时需要满足不同应用领域对单位面积传输带宽、每比特功耗等性能指标的差异化要求,通常上述指标要求相互矛盾,因此Chiplet互连接口与协议的设计难度较高。Chiplet互连接口与协议可以分为物理层、数据链路层、网络层以及传输层。目前在研的互连接口及协议大多集中在物理层,与工艺、功耗以及性能紧密相关,众多芯片厂商致力于推动自身的高速互联协议,当前行业呈现多种协议标准交织的局面;链路层及以上接口更多沿用或扩展已有接口标准及协议。我们认为,裸片间互连标准的不统一制约了Chiplet的进一步发展,或面临设计好的成品日后接口不匹配、不同芯粒互连时资源浪费等问题。

图表18:当前行业呈现多种高速互联协议交织局面

资料来源:半导体行业观察,中金公司研究部

UCle有望打破不同接口协议之间的壁垒,助力Chiplet接口标准化。2022年3月,英特尔、AMD、Arm、高通、三星、台积电、日月光等芯片厂商,以及Google Cloud、Meta、微软等云厂商共同成立Chiplet联盟,联合制定Chiplet通用高速互联标准,即UCIe(Universal Chiplet Interconnect Express)标准。UCIe在物理层、Die-to-Die适配器层、协议层三个维度对Die间连接进行规范,为多Die系统带来高能效、高边缘使用效率以及低延迟等多项性能优势,推动实现Chiplet间高效封装连接。我们认为,在统一的Chiplet互连协议下,来自不同厂商、但基于相同接口标准的Chiplet芯片有望通过先进封装进一步得到整合,被更灵活地制造成模块化的大型芯片,Chiplet生态体系有望逐步完善。

服务器内部高速通信诉求增加,多产业链迎来升级机遇

1# 接口芯片:接口升级推动底层SerDes高速化,高端接口IP增长强劲

SerDes是Serializer(串行器)和Deserializer(解串器)的简称,是一种主流的点对点高速串行通信技术。SerDes系统由参考时钟、PLL模块、上层协议、编解码、发送端 (TX)、信道(Channel)、接收端(RX)等部分组成,通常集成在IP核中或以PHY芯片形式存在。SerDes的工作原理是:在发送端将多路低速并行信号转换成高速串行信号,经过光缆或铜线传输后,在接收端将高速串行信号重新恢复为低速并行信号,实现串、并行数据间的转换。该技术充分利用传输介质的信道容量,减少所需的传输信道和器件引脚数目,从而减少传输线之间的干扰,有效降低了通信成本和功耗。

SerDes为PCIe、以太网等协议提供物理层(Physical Layer,PHY)基础。SerDes在电信、PC/服务器、数据中心、固态硬盘存储等领域应用广泛,高速以太网、DisplayPort、HDMI、PCIe、USB、SATA等高速串行链路数据通信协议的底层技术支撑均为SerDes。按照应用连接类型,SerDes技术主要用于芯片与芯片的互联(如在PCIe PHY中)、以太网互连(如在Ethernet switch PHY中)、芯片与光模块的互联(如在ODSP PHY中)。PHY层一般配置PMA(物理介质子层)硬核和PCS(物理编码子层)软核。PMA属于物理电气子层,含有SerDes功能,负责接收并发送串行通道上的高速串行数据、时钟数据恢复等;PCS针对不同的PCIe、USB、以太网等高速接口进行差异化编码,主要功能是执行数据编码和解码、加扰和解扰、块同步化等。

图表19:接口PHY层架构

资料来源:《高速SerDes技术浅析和前景展望》(温戈,2021),中金公司研究部

SerDes单通道数据率持续提升,高速SerDes架构发生转变。SerDes技术最早的单通道数据率一般在1.25-3.125 Gbit/s。当前国际上SerDes技术的最高水平为单通道发送器128 Gbit/s(功耗为1.3 pJ/b)、接收器100 Gbit/s(功耗为1.1 pJ/b),由IBM在ISSCC 2019会议上推出。从编码方式看,对于单通道56 Gbit/s以下的应用,可采用传统的NRZ编码,56 Gbit/s以上的应用则需切换为PAM4编码,通过牺牲一定信号幅度换取时序上的宽裕,SerDes架构因此发生变化,通常在收发器采用DSP(数字信号处理)和高速ADC(模数转换器)技术来处理PAM4编码。如新思科技的112G SerDes PHY即采用了基于ADC的灵活DSP架构。我们认为,服务器内部和服务器之间高速数据传输需求的增长对接口吞吐量提出更高要求,接口升级有望推动底层传输SerDes技术不断向高速演进。

高速SerDes的设计复杂度提升,且对制造工艺提出更高要求。1)设计复杂度提升:SerDes是复杂的数模混合系统,混合信号设计难度较高,且高速SerDes所采用的PAM4信号对噪声、反射、非线性和基线漂移更加敏感,收发器的整体设计更加复杂。2)更先进的半导体制程工艺:高速SerDes的收发器已转向基于ADC和DSP的新架构,工艺进一步走向高端,要实现超过100Gbit的CDR(Clock and Data Recovery,时钟数据恢复)功能,一般需要使用7nm及以下的先进制程。例如,Synopsys的112G SerDes通过5nm工艺实现。

SerDes设计实现IP化,成为接口IP市场增长的重要驱动力。SerDes早前以独立的单通道芯片形式存在,目前多将SerDes收发器作为商业化IP模块嵌入到需要高速I/O接口的大规模集成电路中应用。通过这种方式,芯片商可以从领先的IP设计提供商处购买通过验证的设计许可,SerDes的复杂性转移至专门的设计团队承担,研发成本可以跨多个芯片、项目甚至行业分担,有助于降低整体设计成本以及节省研发时间。目前SerDes IP已实现广泛应用,是全球接口IP市场增长的重要驱动力之一。根据IPnest数据,2022年接口IP在整个IP市场中的市占率达到25%,仅次于处理器IP(49%),较2017年的18%提升7ppt;IPnest预计2023年全球高速SerDes IP市场容量有望达到5.66亿美元,2020-2023年CAGR约12%。

接口IP持续向高速演进,高端接口IP市场张力十足。我们认为,AIGC的发展对数据传输的带宽和时延均提出更高要求,将进一步推动PCIe、以太网、SerDes、存储等接口协议升级,接口IP的产品迭代有望加速。根据IPnest预测,2022-2026年PCIe、DDR、以太网和D2D四类接口IP市场规模的年均复合增速约为27%,其中高端品类2022-2026年CAGR高达75%,贡献未来接口IP市场主要增量,IPnest预计到2026年四类高端接口IP市场规模合计有望达到21.15亿美元。

图表20:2021-2026年高端接口IP市场规模预测

注:高端以太网指基于56G、112G、224G SerDes的PHY
资料来源:IPnest,中金公司研究部

SerDes技术供应商集中在北美,国产厂商加速布局。目前市场上主要存在两类SerDes厂商:1)第三方SerDes供应商:授权SerDes IP给芯片商使用并收取专利授权费。全球领先的第三方SerDes厂商Synopsys、Cadence、Alphawave、Rambus等均为美国公司,根据EETOP数据,Synopsys在2021年高性能SerDes市场占据55.6%的份额。海外厂商凭借先发优势以及对接口标准进行改进的较高话语权,占据市场主导位置;当前国内市场SerDes IP自给率仍较低,本土厂商正在突破112 Gbps的SerDes技术。2)自研厂商:英特尔、Marvell等厂商根据自身需求设计SerDes,定制化属性较强。

2# 先进封装:芯片封装进阶,ABF先进载板景气度提升

封装技术的精进是实现Chiplet等众核异构方案的重要支撑。传统封装方式主要基于导线将晶片的接合焊盘与基板的引脚相连,实现电气联通,最后覆以外壳形成保护,主要方式有DIP、SOP、QFP等。在芯片制程逐渐逼近硅片极限、摩尔定律推进速度放缓的行业趋势下,先进封装的出现优化了裸片间的连接方式,可以有效缩短异构集成架构下Die间信号距离,使得性能和功耗都得以优化,在提高芯片集成度、电气连接以及性能优化的过程中扮演重要角色。我们认为,AIGC发展浪潮将加速推进众核异构方案主流化进程,先进封装技术有望不断革新。

先进封装相比传统封装最直观变化在于连接方式,通过对点或层的合理布局替代引线。点连接包括Bumping(凸块)、TSV(硅通孔);层连接包括RDL(重布线层)和Interposer(中介层)。

► Bumping(凸块):倒装技术(Flip-Chip)是整个封装过程的核心环节,Bumping工艺又是倒装技术的关键一环。对比以往背对基板和贴后键合的连接方式,FC封装技术通过焊球连接晶片和基板,实现了更高的引脚密度和更可靠的电气连接;其中Bumping能够实现FC工艺中生长焊球、对接基板引脚的功能。

► TSV(Through Silicon Via,硅通孔):TSV是一种三维芯片堆叠技术,通过硅通孔实现多层芯片垂直互通。按集成类型分,TSV可分为2.5D和3D两种类型,2.5D通孔位于中介层中,3D通孔贯穿芯片本身,直接连接上下层芯片。

图表21:2.5D、3DTSV结构示意图

资料来源:李扬《SiP系统级封装设计与仿真》(2012),中金公司研究部

► RDL(Re-distributed layer,重布线层):2.5D维度下RDL实现Bump之间的连接;3D维度下则用于I/O之间的校准及电气互通。根据重布凸点的位置,RDL可分为扇入型(Fan-In)和扇出型(Fan-Out)。扇入型封装是将线路集中在芯片内部,主要用于低I/O节点数量和较小裸片工艺中;扇出型封装技术采用在芯片尺寸以外的区域做I/O接点布线设计以提高I/O接点的数量,主要适用于尺寸较大的芯片类型,如服务器、主机芯片。

► Interposer(中介层):Interposer 是一种中间层,在分布式系统中通过连接凸点实现上下层之间的互通。中介层通常由硅或有机材料制成,具备较高的细间距I/O密度和TSV形成能力,在2.5D和3D IC芯片封装中扮演着关键角色。

将上述互连的技术路径排列组合,形成了Fan-out、WLCSP(晶圆级封装)、Flip-chip(又可细分为FCBGA、FCCSP两种倒装)、2.5D/3D封装、SiP(系统级封装)等先进封装形式,“封装”概念延伸至晶圆、系统层面。我们看到,随着芯片在算速与算力上的需求持续提升,先进封装不断向功能多样化、连接多样化、堆叠多样化发展,封装形式对应的引脚间距越来越小、连接密度越来越高。头部晶圆厂/IDM、封测代工厂、存储器制造商逐步开发出多种连接密度更高的先进封装形式,如超高密度扇出型(UHD Fan-out)、嵌入式硅桥、混合键合等。

图表22:连接密度更高的先进封装方式及代表厂家

资料来源:Yole,中金公司研究部

全球先进封装需求呈增长态势,在整体封装市场的渗透率持续提升。根据Yole预测,全球先进封装市场规模有望从2021年的321亿美元扩容至2027年的572亿美元,2021-2027年复合增长率为10%,其中Fan-out和2.5D/3D封装的市场增速领先。渗透率方面,Yole预计先进封装在封装总市场的占比将从2021年的45%增长到2025年的49.4%,先进封装需求持续提升。看到国内市场,国内先进封装占比相对较低,根据Frost&Sullivan数据,2021年国内先进封装销售规模约399亿元,在整体封装市场渗透率约15%,Frost&Sullivan预计2025年国内先进封装市场规模有望增长至1136.6亿元,2021-2025年CAGR为29.9%,远高于传统封装增速(1.7%)。我们认为未来先进封装将成为国内突破晶圆制造工艺掣肘的重要发展趋势。

图表23:全球先进封装市场及细分市场收入

资料来源:Yole,中金公司研究部

图表24:全球先进封装和传统封装市场占比

资料来源:Yole,中金公司研究部

高算力芯片需求攀升,有望带动ABF载板景气上行。封装基板(即IC载板)向上承载芯片,为芯片提供保护、固定支撑及散热作用;向下则对接PCB模板,在PCB与芯片之间提供电子连接,是先进封装的必备材料。根据中国半导体协会封装分会数据,IC载板在传统引线键合类封装中的成本占比为40-50%;在高端倒装芯片中的成本占比高达70-80%。按照基板材料分类,主流IC载板可分为BT、ABF载板两类,其中ABF载板以ABF膜(日本味之素堆积膜)为基材,主要用于CPU、GPU、FPGA、ASIC等高运算性能芯片。根据IC载板统计,2021年服务器是ABF载板最大的应用市场,约占55%。我们认为,AI浪潮推动AI服务器(包含搭载GPU、FPGA、ASIC等服务器)出货量预期快速增长,AI服务器相比于传统服务器芯片用量增加牵引高算力芯片需求激增,有望带动ABF载板需求向上。

图表25:2021年ABF载板应用端分布情况

资料来源:IC载板,中金公司研究部

Chiplet异构集成下ABF载板面积更大,良率降低使得载板消耗量提升。Chiplet将不同制程、材料的芯片整合至一处以实现异构集成,因此需要面积更大的ABF载板放置。以AMD高端CPU-EPYC为例,EPYC采用4个独立Die一起封装的方式,实现了单CPU 64核128线程的设计目标。EPYC最终的封装面积为852平方毫米,是单Die封装面积的4倍;且ABF载板耗用面积增大引起生产良率降低,造成一定产能损失,因此ABF载板消耗量将进一步增加。根据Prismark预测,2021年全球ABF载板市场规模(也称作FCBGA封装基板)为70亿美元,2026年有望达到121亿美元,2021-2026年复合增长率为11.6%,高于整体封装基板市场8.3%的CAGR。

图表26:AMD CPU-EPYC(64核)示意图

资料来源:TechPowerUp,中金公司研究部

图表27:全球ABF载板市场规模及同比增速

资料来源:Prismark,中金公司研究部

全球封装基板竞争格局相对分散,多为中国台湾及日韩厂商。目前中国大陆厂商封装基板扩产项目多,但具备量产能力厂商少,ABF载板国产化率几乎为零,主要参与厂商为兴森科技、深南电路、珠海越亚等企业,其中兴森科技规划珠海及广州两个FCBGA项目,合计共投资72亿元,深南电路深圳、无锡工厂总共具备90万平方米/年的设计产能,珠海越亚作为现有珠海、南通两个封装基板工厂;此外,博敏电子、中京电子、景旺电子、东山精密、胜宏科技等厂商也先后宣布了各自的封装基板扩产规划,我们认为随着国内高算力处理器芯片的迅速发展,IC载板国产化率有望迅速提升。

3# PCB:AI时代海量算力推动PCB全产业链升级

服务器平台迭代、AI服务器需求高涨,共促PCB主板与板材升级

PCB是承载服务器内各种走线的关键部件,其功能是连接各电子元件并实现通信。根据Prismark数据,2021年服务器/数据存储PCB市场规模为78.12亿美元,占PCB总规模的9.7%;Prismark预计2026年服务器/数据存储市场规模有望扩容至125.74亿美元,2021-2026年CAGR为10%,高于行业平均水平4.8%,服务器/数据存储是PCB产值增速最快的下游应用领域。一般来说,服务器中的主板、电源背板、硬盘背板、网卡、内存、CPU板组、GPU板组等核心部分均需要用到PCB,服务器对PCB产品需求以6层以上为主,其中主板层数在16层以上,背板层数在20层以上,网卡PCB层数在10层以上。根据Prismark,2021年服务器/存储设备中6层及以上PCB市场占比为56.82%,我们测算得到这部分市场规模约为44.39(78.12*56.82%)亿美元。

图表28:全球服务器/数据存储PCB产值及增长率

资料来源:Prismark,中金公司研究部

图表29:2021年服务器/存储PCB需求分布

资料来源:Prismark,中金公司研究部

服务器平台的升级推动PCB层数增加、上游基材性能提升。以Intel为例,服务器平台从支持PCIe 3.0的Purely演进至支持PCIe 5.0的Eagle,PCIe总线升级同步带来更加严重的信号链路插损问题。增加PCB板层数、使用介质损耗更低的覆铜板(Copper Clad Laminate,简称CCL)是解决PCIe信号链路插损问题的关键举措。1)从层数看,PCB层数越多,设计的灵活性越大,可以起到电路阻抗的作用,从而实现芯片组间高速电路信号的高速传输。2)从材料看,CCL是生产PCB的核心原材料,CCL的Df值(介电损耗因子)越小,CCL的介质损耗越低,能够有效减少PCB中的信号衰减。

具体来看,根据Prismark数据,PCIe 3.0总线标准下,信号传输速率为8Gbps,服务器主板PCB为8~12层,相对应的CCL材料Df值在0.014~0.02之间,属于中损耗等级;PCIe 4.0总线16Gbps的传输速率,PCB层数需要提高到12~16层,CCL材料Df值在0.008~0.014之间,属于低损耗等级;当总线标准提升至PCIe 5.0,数据传输速率达到36Gbps,PCB层数需要达到16层以上,CCL材料Df值降至0.004~0.008区间,属于超低损耗材等级。我们认为,PCIe总线向高速演进将带动PCB规格持续升级,由M6(Df区间在0.004-0.008)及以上覆铜板材料制成的超过16层的PCB有望成为服务器标配。根据Prismark,2021年8-16层板的平均价格为456美元/平米,18层以上板的价格为1538美元/平米,高层板的价值量大幅增长。

图表30:PCIe总线升级带来主板PCB层数与上游基材CCL的升级

注:M2/4/6代表CCL龙头企业松下的产品型号,其中M代表Megtron
资料来源:Prismark,Panasonic公司官网,中金公司研究部

AI服务器需要更高层数、更高密度的PCB作为算力载体,有望打开PCB新一轮成长周期。AI服务器PCB相比普通服务器最大的价值增量来自GPU板组。以英伟达DGX H100服务器为例,单台H100配置8颗GPU形成GPU模组,多卡互联场景下GPU板组的走线更多、更密集;同时,高端GPU对针脚数、显存颗粒、供电模块的需求增加,PCB层数需进一步增加。此外,高算力AI服务器对CCL的散热性及电特性提出更高要求。我们观察到,通用服务器PCB的层数一般在16-20层,AI训练服务器的PCB则普遍在20-48层,且关键材料CCL升级到M7/M8。我们估测单台AI服务器的PCB价值量约为单台通用服务器的3-4倍。我们认为,AI大模型等需要海量数据的应用发展将推动算力持续上行,大容量、高速、高性能的AI服务器渗透率有望持续提升,带来PCB高层板增量空间。

图表31:AI服务器和通用服务器PCB对比

资料来源:人工智能与创新公众号,中金公司研究部

高速PCB相比于普通PCB的难度主要体现在材料和工艺:一方面,特定厚度的高速基材CCL,提高了PCB生产商对材料的应用要求;另一方面,PCB层数越多,对对位精度、阻抗控制等制造工艺提出更高的要求,生产设备的配置要求也更高,工艺流程更加复杂,生产时间也更长。

从全球PCB供应格局看,全球PCB厂商众多(根据NTI估计,超过2000家),但掌握多层高速工艺技术的有限,头部企业集中在中国台湾、日韩、美国。大陆PCB厂商在全球的产值占比已过半,但大部分厂商供给以8层板以下为主,高端产品渗透空间仍较大。目前,具备多层高速PCB技术和产品的国内厂商主要包括沪电股份、深南电路、胜宏科技、生益电子等。

图表32:2020年全球PCB企业竞争格局

资料来源:亿渡数据,中金公司研究部

高速CCL市场较集中,国内厂商进军高速市场。全球前六大CCL厂商为建滔化工、生益科技、南亚塑料、松下电工、台光电子和联茂电子,Prismark数据显示2020年合计市场份额超过50%。高速CCL市场集中度相对更高,2021年前四家占据近65%份额,主要参与者包括松下、依索拉(Isola)、联茂(ITEQ)、台耀(TUC)等(根据Prismark数据)。国内厂商也已实现技术突破。

图表33:2020年全球覆铜板企业竞争格局

资料来源:Prismark,中金公司研究部

电子级PPO持续渗透高速CCL,彰显高增长潜能

树脂是CCL的核心原材料(树脂、铜箔、增强材料)之一,用于提升CCL电热性能。CCL是将增强材料(玻璃纤维布等)浸以树脂胶液形成粘结板,随后将其一面或两面覆以电解铜箔,经热压而成的板状材料。其中,树脂主要承担板材的结构支撑、导通互联及绝缘的功能,对CCL的介电性能、热加工稳定性、阻燃性、尺寸稳定性等性能起到决定性作用。根据南亚新材招股书,2017-2019年树脂占覆铜板原材料成本比重持续提升,2019年达到25.5%。一般而言,降低Df(介电损耗)主要通过树脂、基板及基板树脂含量来实现。各种树脂按照Df由大到小排序,依次包括环氧树脂(Epoxy)、聚酰亚胺树脂(PI)、双马来酰亚胺树脂(BMI)、氰酸酯树脂(CE)、聚苯醚树脂(PPO)、聚四氟乙烯树脂(PTPE)等。

图表34:2017-2019年覆铜板原材料成本构成

资料来源: 南亚新材招股书,中金公司研究部

PPO(聚苯醚树脂)是一种热塑性工程塑料,改性后电化学性能优异。PPO分子结构中无强极性基团,因此介电常数和介电损耗较低,且具有良好的耐水性、阻燃性、耐热性;同时,PPO可沿用传统环氧树脂基材的成型工艺及设备,材料升级成本较低。但在IC领域实际使用过程中,基材需承受焊接高温以及芳香烃、卤代烃等溶剂冲洗铜箔表面,纯PPO材料由于分子量高存在熔融加工困难、交联固化程度较低等缺陷,需通过物理或化学方式对其改性。改性PPO树脂及组合物(简称MPPO)具有质轻、优异的耐高低温性、电绝缘性、耐蒸汽性、尺寸稳定性和抗蠕变性等特点,是覆铜板理想的基体树脂材料。

高速覆铜板应用提高MPPO使用率,MPPO市场需求可观。普通CCL主要使用FR-4等级的环氧树脂(Epoxy)作为基体树脂,传输损耗较大。低损耗等级以上(即基材介电损耗系数Df≤0.008)的高频高速CCL所使用的树脂体系主要有两条路线:1)以PTFE为代表的热塑性树脂体系;2)以MPPO为代表的热固性树脂体系。由于AI服务器使用的高速覆铜板对耐热性及尺寸稳定性有较严格的要求,PTFE的热膨胀系数及加工稳定性相对较差,极低损耗和超低损耗等级的高速覆铜板多采用MPPO作为主要树脂体系,如松下的M6、M7N,联茂的IT968、IT988GSE。我们认为,MPPO有望受益于AI算力提升带来的高端服务器需求量增长以及覆铜板高频高速化发展趋势,渗透率有望持续提升。根据新思界产业研究中心预测,2022年全球MPPO需求量超过75万吨,未来3-5年全球MPPO需求量有望以超过12%的年均复合增速快速增长。

图表35:PPO与其他电子树脂性能比较

资料来源:《高速高频覆铜板用改性聚苯醚的合成与性能表征》(2012,闫沁宇),中金公司研究部

图表36:各损耗等级下基材使用情况

资料来源:深南电路招股书,中金公司研究部

MPPO技术壁垒高,海外厂商占据主导地位。PPO在1957年由美国GE公司的Hay通过氧化偶联法制得2,6位取代基聚合物,于1965年实现工业化生产。随着超高频通信的发展,聚苯醚树脂的改性成为主要研发方向。1967年GE公司成功研发出改性工程塑料PPO,此后一直垄断该项技术。到1979年,日本旭化成开发了苯乙烯改性的聚苯醚,打破了GE公司的垄断。20世纪80年代,SABIC(收购了GE工程塑料业务)在以 PPO为原材料的树脂片“Noryl”上覆上铜箔后压制成覆铜板,PPO开始成为覆铜板上游基材。改性PPO的技术难点在于:1)通过再分配反应降低分子量,以增强层压材料的粘结性;2)在PPO分子结构中引入活性官能团,以提升可交联性。海外厂商技术壁垒及产能先发优势突出,SABIC、旭化成等少数化工跨国企业占据主要市场地位。根据立木信息咨询数据,2021年SABIC PPO产能占全球市场的46.6%。

产品认证周期长,构成一定客户壁垒。MPPO的产品认证时间较长,一般需经过覆铜板、PCB以及服务器等设备终端三个环节的层层认证,整体认证周期超过一年半。此外,采用MPPO材料的PCB板层数多、价格高,下游客户在确定上游供应商后更换意愿较低,构成较强的客户粘性。我们认为,率先通过客户认证并实现批量供应的国产厂商先发优势显著,有望优先受益于国产替代趋势以及下游高速CCL需求释放。

图表37:PPO产业链简图

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
浅谈NVIDIA NVLink网络
英伟达25年路线图惊爆流出!老黄豪赌B100暴打AMD,秘密武器X100曝光
英伟达A100 Tensor Core GPU架构深度讲解
小芯片互连标准呼之欲出
Chiplet加剧XPU之争,英伟达为何迟迟不出手?
卓越生产力工具!NVIDIA RTX A6000专业显卡测试
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服