打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
阿里云,凭什么接住中国一半的大模型?
目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上

文 | 吴俊
编辑 | 谢丽容
云计算市场正在因为大模型进入变革前夜,新一轮洗牌周期即将到来。
从AI算力供给方的视角来看,大模型是打破云市场现状的变量。中国云市场健康可持续的调整已经有2年。此次调整已经接近尾声。(详情可见《财经十一人》9月31日报道,《中国云市场调整2年,更健康了么?》谁能把握好大模型带来的周期机会,谁就可能抢到下一轮变革“船票”。
从AI算力需求方的视角来看,大模型带来的市场需求,和传统云计算有明显差异。比如,传统算力需求转变成了智能算力需求。大模型训练、推理对云的技术要求更高了。传统应用也在朝着AI原生应用转型。新的云生态,将以MaaS(Model as a Service,模型即服务)平台和AI原生应用为核心。
阿里云是中国最大的云计算厂商。2022下半年中国公有云(IaaS+PaaS)市场,阿里云市场份额31.9%,位居第一。2023上半年,阿里云总营收497亿元(2023年二季度开始,阿里财报不再区分阿里生态体系内外营收。阿里云将独立上市,阿里集团也是客户),是中国营收规模最高的云厂商。
大模型周期当前,阿里云打算怎么做,市场非常关注。今年下半年以来,阿里云的大模型战略正变得越加清晰——做各家大模型背后的“卖水人”,帮助企业训好大模型、用好大模型。通过开放、开源的方式,激发“模型越强、应用越多、用户越广、算力越大”的生态飞轮。   
10月31日,在2023云栖大会上,阿里云宣布升级AI基础设施,并发布了一系列产品。其中包括千亿级参数大模型通义千问2.0,八款行业大模型,大模型应用开发平台“阿里云百炼”。
阿里巴巴集团董事会主席蔡崇信表示,目前全国80%的科技企业和超过一半的AI大模型公司跑在阿里云上。阿里云要做“AI时代最开放的云”,让开发AI、使用AI变得更加容易和便宜。

算力优势
中国云计算厂商经营大模型生态出现了两种思路:一种倾向于垂直整合,一种倾向于平台生态。
两种路线核心产品服务都是AI算力、MaaS平台。AI算力,也就是云计算通过虚拟化、网络等技术将GPU(图形处理器)和CPU(中央处理器)集群以更高效的形式对外提供异构算力。MaaS平台,也就是提供包括模型训练、微调、部署及推理等在内的一整套工具链和服务。
垂直整合路线以我为主。一是,主要围绕自有大模型、MaaS平台完善工具链;二是,一般不为其他基础大模型创业公司提供基础模型训练服务。三是,明确不开源大模型。
平台生态路线把后置,追求开放性,有几个典型特征:一是为其他基础大模型提供算力服务、MaaS服务(训练、微调等);二是提供开源大模型、建大模型社区,给开发者足够的选择空间。
不同的路线方向,背后体现的是不同云厂商的主导思路、历史积淀、产品侧重。
阿里云选择平台生态路线,是自身战略和客户需求同时决定的。
从阿里云的视角来看,背后有几个核心原因。一是,大模型技术还在高速发展,技术路线远未到收敛、明确的时候,要保持可能性、开放度。第二个因素非常现实,阿里云目前在国内云厂商中算力资源最丰富,有能力为创业公司、研究机构提供服务。卖云最高效的方式就是卖算力,第三方大模型服务商的训练、推理会消耗大量算力。另外,平台开放、模型开源、建设社区是最容易吸引开发者和服务商的方式。
从需求方视角来说,一批大模型厂商也希望和云厂商合作。不考虑股权关系,这种合作类似OpenAI和微软。OpenAI负责技术突破,微软提供算力基础、客户资源。因为云厂商有算力资源,有稳定的技术服务,还能触达更多企业客户。大模型厂商可以专注提升模型技术,不用花费精力维护基础设施。
今年9月,阿里云CTO周靖人曾表示,大模型目前还在演进的初级阶段。是否要自己开发、要使用何种模型,都应该由效果决定。应该站在开发者视角,给开发者工具和选择,让他们自己去选型。阿里云选择平台生态路线的核心原因是,希望让算力更普惠,让AI更普及。平台生态、开放开源是实现这一目标的最佳方式。

阿里云CTO周靖人讲解智能时代的云计算技术体系
一些云厂商选择垂直整合路线的原因也很简单。一是更容易战略聚焦,提供统一的模型、平台、软件服务,而且离高利润率的蛋糕更近。二是算力资源有限,为第三方模型服务商提供训练和自家大模型存在竞争。三是管理层认为大模型和传统软件不同。传统软件开源代码后,开发者会让软件能力逐渐完善。大模型开源要提供源代码、模型参数和其他技术细节,但开发者反馈带来的模型能力提升有限。
无论是平台生态、垂直整合,两条路线都有各自的合理性。不存在绝对的界限,也不存在绝对的好坏之分。事实上,即使是垂直整合路线的企业,只是较少为其他基础大模型提供算力服务,但一般还是会为自研大模型、三方大模型同时提供MaaS平台服务——因为各家都判断,多模型会是未来主要的市场需求。
今年8月,一位云计算厂商高管对《财经十一人》判断,大模型供给端、需求端可能会形成“多模型”生态。平台生态路线,比较适应“多模型”现实。
在供给端,会存在几个少数的超大规模的基础大模型、多个中等规模的大模型和更多个行业的垂直模型。没有一家云厂商可以用自研模型的方式垄断需求端。云计算厂商应该成为承载模型的平台。
在需求端,企业通过自研或者与三方模型服务商深度合作,形成企业自身1个主力模型。在这个主力模型外,在不同场景中,企业还会同时应用N个外部模型。


激发生态
走开放生态这条路,需要对模型厂商、企业客户具备足够的吸引力。
生态的吸引力来自于多个方面:算力资源足够丰富,训练推理成本更低,平台技术服务更稳定,应用开发更便捷——简单理解,就是要帮企业训好大模型、用好大模型
为此,阿里云一共提供了四个方向的产品或服务。
  • 1、PAI灵骏(高性能模型训练平台),对外提供稳定的智能算力服务。

  • 2、PAI灵积(模型推理与服务平台),为其他模型厂商提供API接口,并对外提供推理服务。

  • 3、开源的通义千问模型(已开源70亿、140亿版本,720亿参数版本即将开源)、AI开源社区魔搭ModelScope。

  • 4、阿里云百炼(大模型应用开发平台),帮助打造专属AI和大模型应用的开发工具。
阿里云CTO周靖人对《财经十一人》解释,上述四类产品都是阿里云大模型开发者生态的一部分。这套产品技术体系设计背后的思考是,需要针对目标开发者、目标客户提供不同类型的AI服务。
大模型不只是算力规模、显卡数量的较量。背后的技术能力才决定了能否训好大模型。大模型训练的挑战是,确保大规模训练任务稳定不中断。这意味着云厂商要提供稳定的算力供给、技术服务。
一位大模型厂商人士对《财经十一人》表示,“卡多”是他们选择阿里云的核心原因之一。训练阶段主要考虑能不能跑完任务。训练稳定性则是下一步要考虑的问题。
另一位大模型厂商人士对《财经十一人》表示,大模型训练动辄使用千卡、万卡,训练耗时往往长达数周甚至数月。如此大的GPU(图形处理器)集群,显卡、网络、系统随时可能遭遇故障。一旦故障就会导致训练进度中断,甚至还要手动重启作业。这会导致运维成本很高。即使训练恢复,大量数据需要重新计算,这又会花费大量时间,浪费昂贵的算力资源。
模型的升级迭代通常以月为单位,一次完整训练成本高达数千万元。当算力供给不够稳定时,模型训练时间会延长,算力成本也会大幅提升。因此,模型训练成本、迭代周期,很大程度受云平台技术能力的影响。国内半数模型企业选择阿里云的原因是算力供给充足且稳定。一位阿里云技术人士表示,阿里云灵骏PAI平台,可以让千卡任务稳定运行三周以上,还能实现集群自动化运维管理。
阿里云方面表示,中国有全国80%的科技企业和一半大模型企业跑在阿里云上。百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等头部企业及机构,均在阿里云上训练大模型。    
百川智能是一家目前在创投圈炙手可热的大模型创业公司。该公司CEO王小川表示,通过和阿里云合作,百川智能很好地完成了千卡大模型训练任务,有效降低了模型推理成本,提升了模型部署效率。《财经十一人》了解到,百川智能的大模型此前平均28天就发一款模型,在创业公司中属于迭代速度非常快的企业。
此外,小红书信息流推荐的核心功能深度使用了阿里云。阿里云承担了前期模型训练,到后期模型推理等任务。阿里云PAI的推理优化,能帮小红书节约成本30%。
大模型在训练完毕后,还需要精调、部署。这需要成熟的工具链,只有大公司才能提供这些工具链。一批大模型企业还希望通过云平台对外提供服务,因为这可以触达更多客户。
大模型创业公司通常只提供模型,但这只是第一步。一位云计算技术人士今年9月曾对《财经十一人》表示,企业客户要一站式解决企业选模型、调模型、用模型的问题。所以这需要通过MaaS平台提供一整套工具链。MaaS平台可以帮模型企业实现商业化,企业用户也能将模型能力集成到各类AI应用中。
在MaaS平台开放方面,阿里云的灵积平台能为第三方大模型提供训练、推理、部署、精调、测评、产品化落地等工具链。这个生态正在滚雪球式壮大。已上线的第三方大模型包括Meta的Llama2、智谱AI的ChatGLM、清华大学的ChatGLM、百川智能的百川开源大模型、IDEA研究院的姜子牙等。已经有部分第三方大模型玩家开始通过灵积平台商业化。
用好大模型,还需要有便捷的应用开发工具。其目的是降低应用开发门槛,让AI原生应用真正落地。
一位云厂商生态负责人今年9月曾对《财经十一人》表示,好的AI应用开发工具能降低开发成本、门槛。AI原生类应用,相比传统软件会更原子化、单点化、碎片化,开发成本会更低。一些3至5人的技术团队,也能短时间开发出解决用户特定需求的爆款应用。因此,云厂商要提供低门槛的AI原生应用开发平台、应用分发商店。
阿里云的大模型应用开发平台“阿里云百炼”,可以通过“拖拉拽”的方式进行应用开发,让企业在几分钟内搭建一款简易的模型应用。事实上,一批企业已经在阿里云百炼平台上开发了大模型应用。
朗新科技是一家能源科技企业,长期为政企业客户提供电力能源消费的技术解决方案。它基于阿里云百炼平台开发了“电力账单解读智能助手”应用,能够帮客户分析电力账单,并会基于电价政策、电费算法、电力业务规则,提出节电解决方案。
开源和社区是激发AI生态的重要途径。开源模型会吸引企业、开发者免费使用模型。社区可以让开发者交流模型使用经验。模型能力会因为开发者的大规模参与实现快速迭代。
一位金融科技企业技术负责人今年10月对《财经十一人》表示,大模型是否要开源,这在很多云厂商内部一直有争论,因为开源和商业化之间存在一定的矛盾。但对大多数需求方的企业来说,开源从来都没有争议。企业自己从头训练一个大模型的成本太高,直接使用成熟的开源模型是门槛最低的方式。
在美国市场,Llama 2为代表的开源大模型和开源社区Hugging Face已经成了最常见的开源产品。激发国内大模型生态,也需要类似的产品。    
阿里云目前开源了70亿参数、140亿参数、720亿参数的多款大模型。2022年阿里云牵头建设国内首个AI开源社区魔搭ModelScope。魔搭社区已聚集了2300多款AI模型、280万开发者,AI模型下载量突破1亿。魔搭的模型贡献者覆盖百川智能、IDEA研究院、澜舟科技、深势科技、智谱AI等国内大模型赛道核心玩家,正在成为中国的的Hugging Face。


能否复制微软式增长?
开放大模型生态,意味着会带来更大的算力消耗、算力租用,这也更容易激发上层应用生态,带来“模型越强、应用越多、用户越广、算力越大”的正向循环。
算力租用率、消耗量提升,上层应用生态不断繁荣——这是云计算这种商业模式的本质。
中国大模型出于发展早期。当下的训练需求相对较高,推理需求尚未爆发。不过,随着未来基于大模型开发的应用逐渐普及,推理需求会逐渐成为主流。IDC在2022年12月报告显示,中国AI服务器训练负载将不足40%,推理负载将超过60%。
大模型无论是技术迭代、产业落地、商业转化、都处于非常早期阶段。一个多位云厂商高管都认可的基本判断是,随着政策放开、商务谈判、落地交付逐步推进,2023年四季度、2024年一季度之后,国内大模型商用案例会规模化出现。届时才可能会对中国云计算厂商的财务指标产生实质影响。
在美国市场,大模型对云计算厂商的拉动作用已经初现端倪。美国宏观经济承压,云计算和数字化企业普遍增速下滑的情况下,微软的云业务反而逆势增长。
微软2024财年一季度(2023年三季度)财报显示,微软智能云(微软Azure和企业服务业务)营收同比增长19.4%,相比亚马逊AWS、谷歌云营收增速在反弹。微软智能云的营业利润率为48.4%,已经攀升至三年来的最高点。在财报后的电话会议中,微软管理层对投资者直言,高于预期的AI消费推动了Azure的收入增长。
中国云市场健康可持续的调整已经有2年。虽然各大互联网云厂商的利润率在2年来均有所改善,但各家增长已进入10%以下的区间。国内多家云厂商高管判断,随商务谈判、落地交付逐步推进,2023年四季度、2024年一季度后,国内大模型商用案例才会规模化出现。那时,大模型才会产生明显业绩拉动作用。
国内云市场的一个期待是,大模型将改变云计算市场的游戏规则。下一轮竞争的决定因素就是:如何坚定推行AI战略,让大模型和云计算深度融合。
在阿里云CTO周靖人看来,大模型对国际云厂商的财务表现已经产生了明显影响。在中国市场,AI对云计算产业的变化才刚刚开始,需要给产业发展一定的时间。半年来,中国的大模型生态正在逐渐繁荣。假以时日,未来算力消耗也会快速增长。
激发模型越强、应用越多、用户越广、算力越大的生态飞轮,让大模型快速实现产业落地。这将有机会让阿里云等中国云厂商实现微软式的逆势增长。 

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
阿里灵杰,让AI工程化由畅想照进现实
2023云栖大会关键词:开放、大模型、MaaS、产业智能升级 | 互联网数据资讯网
百度沈抖:大模型让「AI普惠」的前景终于被看到
****沙利文发布《中国AI基础软件市场研究报告(2023)》
支撑全产业AI,需要怎样的算力服务?
“魔搭”是啥?一键用上大模型的“魔法”
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服