太吓人了!如果真是这样,能够做出媲美GPT-4的中国公司恐怕少之又少!
首先假定:
1,英伟达的NeMo Framework框架在训练GPT-3大模型的过程中能使硬件算力有效性能达到50%以上。
2,GPT-3大模型参数量1750亿个,训练样本token数3000亿个。
3,GPT-3大模型每次训练时间在30天完成。
4,按谷歌每日搜索量35亿次估计,即每次访问提问4次,每次提问+回答需处理425字,平均每个字转换为token比例为4/3,则每日GPT-3大模型需推理token数79330亿个。
那么可以计算出一个参数量为1750亿个的GPT-3大模型:
1,在训练阶段需要新增1558颗英伟达A100 GPU芯片,对应价值为2337万美元,需要195台DGX A100服务器。
2,在推理阶段需要新增70.6万颗英伟达A100 GPU芯片,对应价值为105.95亿美元,需要8.8万台DGX A100服务器。
3,一台DGX A100服务器售价19.9万美元,则在训练阶段DGX A100服务器价值量为3880.5万美元,在推理阶段DGX A100服务器价值量为175.12亿美元。
为了开发出实用性相当有限的GPT-3大模型(跟GPT-4相比差距很远),仅仅是购买搭载英伟达A100 GPU芯片的服务器所需费用就超过175亿美元。
训练和推理GPT-3大模型,在硬件成本上需要花费至少175亿美元;当然,也有其他方面的成本。例如,数据标注成本:需要对大量文本数据进行标注,以提供监督信号。数据标注是耗时和劳力密集的过程,需要雇佣人工标注者或使用其他方法生成伪标签。电力成本:需要消耗大量的电力来保证服务器正常工作。电力成本也会随着模型的规模,训练时间和推理频率发生变化。人力成本:要开发和维护GPT-3大模型,需要雇佣专业的工程师、研究员和管理人员。他们负责设计模型架构,选择训练数据,优化训练过程,测试模型性能,解决模型问题,更新模型版本等等。
开发像ChatGPT这样的大模型,除了有着如此高的资金门槛外,也存在非常高的技术门槛(尤其需要全球顶尖级的AI人才)——谷歌在人工智能领域算是世界一流水平,谷歌的Bard在面对OpenAI的GPT-4时都已显著落于下风。
联系客服