阿里云，凭什么接住中国一半的大模型？

目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上

文 | 吴俊宇

编辑 | 谢丽容

云计算市场正在因为大模型进入变革前夜，新一轮洗牌周期即将到来。

从AI算力供给方的视角来看，大模型是打破云市场现状的变量。中国云市场“健康可持续”的调整已经有2年。此次调整已经接近尾声。（详情可见《财经十一人》9月31日报道，《中国云市场调整2年，更健康了么？》）谁能把握好大模型带来的周期机会，谁就可能抢到下一轮变革“船票”。

从AI算力需求方的视角来看，大模型带来的市场需求，和传统云计算有明显差异。比如，传统算力需求转变成了智能算力需求。大模型训练、推理对云的技术要求更高了。传统应用也在朝着AI原生应用转型。新的云生态，将以MaaS（Model as a Service，模型即服务）平台和AI原生应用为核心。

阿里云是中国最大的云计算厂商。2022下半年中国公有云（IaaS+PaaS）市场，阿里云市场份额31.9%，位居第一。2023上半年，阿里云总营收497亿元（2023年二季度开始，阿里财报不再区分阿里生态体系内外营收。阿里云将独立上市，阿里集团也是客户），是中国营收规模最高的云厂商。

大模型周期当前，阿里云打算怎么做，市场非常关注。今年下半年以来，阿里云的大模型战略正变得越加清晰——做各家大模型背后的“卖水人”，帮助企业训好大模型、用好大模型。通过开放、开源的方式，激发“模型越强、应用越多、用户越广、算力越大”的生态飞轮。

10月31日，在2023云栖大会上，阿里云宣布升级AI基础设施，并发布了一系列产品。其中包括千亿级参数大模型通义千问2.0，八款行业大模型，大模型应用开发平台“阿里云百炼”。

阿里巴巴集团董事会主席蔡崇信表示，目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上。阿里云要做“AI时代最开放的云”，让开发AI、使用AI变得更加容易和便宜。

算力优势

中国云计算厂商经营大模型生态出现了两种思路：一种倾向于垂直整合，一种倾向于平台生态。

两种路线核心产品服务都是AI算力、MaaS平台。AI算力，也就是云计算通过虚拟化、网络等技术将GPU（图形处理器）和CPU（中央处理器）集群以更高效的形式对外提供异构算力。MaaS平台，也就是提供包括模型训练、微调、部署及推理等在内的一整套工具链和服务。

垂直整合路线“以我为主”。一是，主要围绕自有大模型、MaaS平台完善工具链；二是，一般不为其他基础大模型创业公司提供基础模型训练服务。三是，明确不开源大模型。

平台生态路线把“我”后置，追求开放性，有几个典型特征：一是为其他基础大模型提供算力服务、MaaS服务（训练、微调等）；二是提供开源大模型、建大模型社区，给开发者足够的选择空间。

不同的路线方向，背后体现的是不同云厂商的主导思路、历史积淀、产品侧重。

阿里云选择平台生态路线，是自身战略和客户需求同时决定的。

从阿里云的视角来看，背后有几个核心原因。一是，大模型技术还在高速发展，技术路线远未到收敛、明确的时候，要保持可能性、开放度。第二个因素非常现实，阿里云目前在国内云厂商中算力资源最丰富，有能力为创业公司、研究机构提供服务。卖云最高效的方式就是卖算力，第三方大模型服务商的训练、推理会消耗大量算力。另外，平台开放、模型开源、建设社区是最容易吸引开发者和服务商的方式。

从需求方视角来说，一批大模型厂商也希望和云厂商合作。不考虑股权关系，这种合作类似OpenAI和微软。OpenAI负责技术突破，微软提供算力基础、客户资源。因为云厂商有算力资源，有稳定的技术服务，还能触达更多企业客户。大模型厂商可以专注提升模型技术，不用花费精力维护基础设施。

今年9月，阿里云CTO周靖人曾表示，大模型目前还在演进的初级阶段。是否要自己开发、要使用何种模型，都应该由效果决定。应该站在开发者视角，给开发者工具和选择，让他们自己去选型。阿里云选择平台生态路线的核心原因是，希望让算力更普惠，让AI更普及。平台生态、开放开源是实现这一目标的最佳方式。

阿里云CTO周靖人讲解智能时代的云计算技术体系

一些云厂商选择垂直整合路线的原因也很简单。一是更容易战略聚焦，提供统一的模型、平台、软件服务，而且离高利润率的蛋糕更近。二是算力资源有限，为第三方模型服务商提供训练和自家大模型存在竞争。三是管理层认为大模型和传统软件不同。传统软件开源代码后，开发者会让软件能力逐渐完善。大模型开源要提供源代码、模型参数和其他技术细节，但开发者反馈带来的模型能力提升有限。

无论是平台生态、垂直整合，两条路线都有各自的合理性。不存在绝对的界限，也不存在绝对的好坏之分。事实上，即使是垂直整合路线的企业，只是较少为其他基础大模型提供算力服务，但一般还是会为自研大模型、三方大模型同时提供MaaS平台服务——因为各家都判断，多模型会是未来主要的市场需求。

今年8月，一位云计算厂商高管对《财经十一人》判断，大模型供给端、需求端可能会形成“多模型”生态。平台生态路线，比较适应“多模型”现实。

在供给端，会存在几个少数的超大规模的基础大模型、多个中等规模的大模型和更多个行业的垂直模型。没有一家云厂商可以用自研模型的方式垄断需求端。云计算厂商应该成为承载模型的平台。

在需求端，企业通过自研或者与三方模型服务商深度合作，形成企业自身1个主力模型。在这个主力模型外，在不同场景中，企业还会同时应用N个外部模型。

激发生态

走开放生态这条路，需要对模型厂商、企业客户具备足够的吸引力。

生态的吸引力来自于多个方面：算力资源足够丰富，训练推理成本更低，平台技术服务更稳定，应用开发更便捷——简单理解，就是要帮企业训好大模型、用好大模型。

为此，阿里云一共提供了四个方向的产品或服务。

1、PAI灵骏（高性能模型训练平台），对外提供稳定的智能算力服务。
2、PAI灵积（模型推理与服务平台），为其他模型厂商提供API接口，并对外提供推理服务。
3、开源的通义千问模型（已开源70亿、140亿版本，720亿参数版本即将开源）、AI开源社区魔搭ModelScope。
4、“阿里云百炼”（大模型应用开发平台），帮助打造专属AI和大模型应用的开发工具。

阿里云CTO周靖人对《财经十一人》解释，上述四类产品都是阿里云大模型开发者生态的一部分。这套产品技术体系设计背后的思考是，需要针对目标开发者、目标客户提供不同类型的AI服务。

大模型不只是算力规模、显卡数量的较量。背后的技术能力才决定了能否训好大模型。大模型训练的挑战是，确保大规模训练任务稳定不中断。这意味着云厂商要提供稳定的算力供给、技术服务。

一位大模型厂商人士对《财经十一人》表示，“卡多”是他们选择阿里云的核心原因之一。训练阶段主要考虑能不能跑完任务。训练稳定性则是下一步要考虑的问题。

另一位大模型厂商人士对《财经十一人》表示，大模型训练动辄使用千卡、万卡，训练耗时往往长达数周甚至数月。如此大的GPU（图形处理器）集群，显卡、网络、系统随时可能遭遇故障。一旦故障就会导致训练进度中断，甚至还要手动重启作业。这会导致运维成本很高。即使训练恢复，大量数据需要重新计算，这又会花费大量时间，浪费昂贵的算力资源。

模型的升级迭代通常以月为单位，一次完整训练成本高达数千万元。当算力供给不够稳定时，模型训练时间会延长，算力成本也会大幅提升。因此，模型训练成本、迭代周期，很大程度受云平台技术能力的影响。国内半数模型企业选择阿里云的原因是算力供给充足且稳定。一位阿里云技术人士表示，阿里云灵骏PAI平台，可以让千卡任务稳定运行三周以上，还能实现集群自动化运维管理。

阿里云方面表示，中国有全国80%的科技企业和一半大模型企业跑在阿里云上。百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等头部企业及机构，均在阿里云上训练大模型。

百川智能是一家目前在创投圈炙手可热的大模型创业公司。该公司CEO王小川表示，通过和阿里云合作，百川智能很好地完成了千卡大模型训练任务，有效降低了模型推理成本，提升了模型部署效率。《财经十一人》了解到，百川智能的大模型此前平均28天就发一款模型，在创业公司中属于迭代速度非常快的企业。

此外，小红书信息流推荐的核心功能深度使用了阿里云。阿里云承担了前期模型训练，到后期模型推理等任务。阿里云PAI的推理优化，能帮小红书节约成本30%。

大模型在训练完毕后，还需要精调、部署。这需要成熟的工具链，只有大公司才能提供这些工具链。一批大模型企业还希望通过云平台对外提供服务，因为这可以触达更多客户。

大模型创业公司通常只提供模型，但这只是第一步。一位云计算技术人士今年9月曾对《财经十一人》表示，企业客户要一站式解决企业选模型、调模型、用模型的问题。所以这需要通过MaaS平台提供一整套工具链。MaaS平台可以帮模型企业实现商业化，企业用户也能将模型能力集成到各类AI应用中。

在MaaS平台开放方面，阿里云的灵积平台能为第三方大模型提供训练、推理、部署、精调、测评、产品化落地等工具链。这个生态正在滚雪球式壮大。已上线的第三方大模型包括Meta的Llama2、智谱AI的ChatGLM、清华大学的ChatGLM、百川智能的百川开源大模型、IDEA研究院的姜子牙等。已经有部分第三方大模型玩家开始通过灵积平台商业化。

用好大模型，还需要有便捷的应用开发工具。其目的是降低应用开发门槛，让AI原生应用真正落地。

一位云厂商生态负责人今年9月曾对《财经十一人》表示，好的AI应用开发工具能降低开发成本、门槛。AI原生类应用，相比传统软件会更原子化、单点化、碎片化，开发成本会更低。一些3至5人的技术团队，也能短时间开发出解决用户特定需求的爆款应用。因此，云厂商要提供低门槛的AI原生应用开发平台、应用分发商店。

阿里云的大模型应用开发平台“阿里云百炼”，可以通过“拖拉拽”的方式进行应用开发，让企业在几分钟内搭建一款简易的模型应用。事实上，一批企业已经在阿里云百炼平台上开发了大模型应用。

朗新科技是一家能源科技企业，长期为政企业客户提供电力能源消费的技术解决方案。它基于阿里云百炼平台开发了“电力账单解读智能助手”应用，能够帮客户分析电力账单，并会基于电价政策、电费算法、电力业务规则，提出节电解决方案。

开源和社区是激发AI生态的重要途径。开源模型会吸引企业、开发者免费使用模型。社区可以让开发者交流模型使用经验。模型能力会因为开发者的大规模参与实现快速迭代。

一位金融科技企业技术负责人今年10月对《财经十一人》表示，大模型是否要开源，这在很多云厂商内部一直有争论，因为开源和商业化之间存在一定的矛盾。但对大多数需求方的企业来说，开源从来都没有争议。企业自己从头训练一个大模型的成本太高，直接使用成熟的开源模型是门槛最低的方式。

在美国市场，Llama 2为代表的开源大模型和开源社区Hugging Face已经成了最常见的开源产品。激发国内大模型生态，也需要类似的产品。

阿里云目前开源了70亿参数、140亿参数、720亿参数的多款大模型。2022年阿里云牵头建设国内首个AI开源社区魔搭ModelScope。魔搭社区已聚集了2300多款AI模型、280万开发者，AI模型下载量突破1亿。魔搭的模型贡献者覆盖百川智能、IDEA研究院、澜舟科技、深势科技、智谱AI等国内大模型赛道核心玩家，正在成为中国的的Hugging Face。

能否复制微软式增长？

开放大模型生态，意味着会带来更大的算力消耗、算力租用，这也更容易激发上层应用生态，带来“模型越强、应用越多、用户越广、算力越大”的正向循环。

算力租用率、消耗量提升，上层应用生态不断繁荣——这是云计算这种商业模式的本质。

中国大模型出于发展早期。当下的训练需求相对较高，推理需求尚未爆发。不过，随着未来基于大模型开发的应用逐渐普及，推理需求会逐渐成为主流。IDC在2022年12月报告显示，中国AI服务器训练负载将不足40%，推理负载将超过60%。

大模型无论是技术迭代、产业落地、商业转化、都处于非常早期阶段。一个多位云厂商高管都认可的基本判断是，随着政策放开、商务谈判、落地交付逐步推进，2023年四季度、2024年一季度之后，国内大模型商用案例会规模化出现。届时才可能会对中国云计算厂商的财务指标产生实质影响。

在美国市场，大模型对云计算厂商的拉动作用已经初现端倪。美国宏观经济承压，云计算和数字化企业普遍增速下滑的情况下，微软的云业务反而逆势增长。

微软2024财年一季度（2023年三季度）财报显示，微软智能云（微软Azure和企业服务业务）营收同比增长19.4%，相比亚马逊AWS、谷歌云营收增速在反弹。微软智能云的营业利润率为48.4%，已经攀升至三年来的最高点。在财报后的电话会议中，微软管理层对投资者直言，高于预期的AI消费推动了Azure的收入增长。

中国云市场“健康可持续”的调整已经有2年。虽然各大互联网云厂商的利润率在2年来均有所改善，但各家增长已进入10%以下的区间。国内多家云厂商高管判断，随商务谈判、落地交付逐步推进，2023年四季度、2024年一季度后，国内大模型商用案例才会规模化出现。那时，大模型才会产生明显业绩拉动作用。

国内云市场的一个期待是，大模型将改变云计算市场的游戏规则。下一轮竞争的决定因素就是：如何坚定推行AI战略，让大模型和云计算深度融合。

在阿里云CTO周靖人看来，大模型对国际云厂商的财务表现已经产生了明显影响。在中国市场，AI对云计算产业的变化才刚刚开始，需要给产业发展一定的时间。半年来，中国的大模型生态正在逐渐繁荣。假以时日，未来算力消耗也会快速增长。

激发“模型越强、应用越多、用户越广、算力越大”的生态飞轮，让大模型快速实现产业落地。这将有机会让阿里云等中国云厂商实现“微软式”的逆势增长。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。