超云智算事业部总经理 田锋在准确的预判下,超云早已布局AI服务器领域。从2014年推出第一代GPU服务器,到如今的智算服务器,超云AI系列产品已演进到了第四代。针对AI训练、推理、图形工作站、边缘AI计算等不同场景下的算力需求,超云已推出多个系列的智算产品。这种多年自研的AI技术储备,使得超云斩获了一批来自数据中心、互联网及大模型等领域的头部客户。比如,在西云算力公司的人工智能专用智算平台项目中,超云就提供了上千台高性能AI服务器、高速存储系统以及AI管理平台,为西云算力公司新一代人工智能数据中心的建设提供了坚实的算力支持。不仅如此,超云在AI服务器上还有更为细致的洞察。目前,以大模型为主的AI算力需求主要来自于两个环节:训练和推理。在“百模大战”阶段,各家巨头公司纷纷投入大规模的算力资源,需求主要来自大模型“训练”,关注的是AI服务器的性能和组网能力。随着大模型走向垂直落地,AI应用逐步成熟,大模型“训练”需求也开始转向“推理”,企业客户更多关注的是AI服务器的综合性能,如单位能耗算力、时延、成本等。这意味着企业AI基础设施规划在逐步发生改变。据IDC数据显示,2021年中国数据中心用于推理的服务器的市场份额占比已达到57.6%,预计到2026年,用于推理的工作负载将达到62.2%。基于客户不同阶段的需求,超云有针对性地打造训练和推理服务器的竞争力。尤其是在推理层面,超云更是将其提升至公司战略层面,立下了“推理之巅、超云为先”的目标。例如,在训练阶段,大模型面临庞大集群和高昂成本,搭建时涉及模型、芯片、网络等多个环节,千卡集群落地就可能遇到灾难性的问题,严重影响大模型性能发挥。目前超云是国内少有的能够提供万卡集群落地的服务器厂商,可以很好地配合客户做好组网、性能调优,将训练性能进行最高数倍提升。在推理阶段,超云更是下足了功夫,将国内多个开源大模型和部分商业大模型做好适配,通过本地化部署进行参数调优后,直接为客户提供对应大模型的高性能推理机,这种速度业内少有厂商能够匹敌。同时,针对软硬分离、无专业机房、扩容困难等技术困扰,超云还与合作伙伴共同推出了AI大模型训推一体机,通过一体机的高性能硬件底座和优化架构加速大模型的训练过程,提高训练效率,支持多种AI大模型场景需求。超云智算事业部总经理田锋表示,如何提高训练和推理产品的能效,是超云AI服务器发展的重点之一。为此,超云还开创性地提出了两个模型指标对AI服务器进行测算:训价比,可以将价格投入转换成性能;训效比,可以将能源投入转换成性能,让客户清楚地看到AI服务器的能效和投入产出比。正是这种精细化的产品能力,让超云的AI服务器极具市场竞争力。在AI算力需求井喷的当下,超云实现了价值超亿元的 AI 服务器批量交付,为客户的业务落地提供了强劲的算力支撑。