打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
训练大模型有多烧钱?(含常用GPU规格比较)
userphoto

2024.04.21 上海

关注

本文整理自网络blog

这位博主还几篇关于大模型的文章非常不错,小编我就一起整理成一篇文章。

训练大模型有多烧钱?

要理解大型语言模型(LLM)的运行,首先需要了解其所需的硬件配置。除了GPU之外,显卡内存也是至关重要的。以Meta公司发布的LLaMA 2模型为例,其包括70B、13B、7B等不同参数规模的模型,而这些模型需要的GPU内存也各不相同。比如,要运行完整的70B模型,需要320GB的GPU内存;而对于13B模型,则需要50GB的GPU内存,7B模型则需要30GB的GPU内存。

然而,通过量化技术,可以在一定程度上牺牲模型的精确度,以减少内存的使用量。这意味着,即使你可能会牺牲一些模型的准确性,但你可以将内存使用量减半,甚至降低到原来的1/4或1/8。因此,如果你可以接受与性能稍逊的机器人对话,那么即使没有独立显卡,仅仅使用CPU也能够运行LLaMA 2。

Meta公司开源的LLM项目(LLaMA 2)具有许多优点,其中一个重要的优点是你可以重新训练或微调模型,使其符合你的需求。这为应用场景带来了无限的可能性。

然而,值得注意的是,训练和微调LLM是非常昂贵的。以前提到的OpenAI模型微调的成本为每小时34至103美元。那么,如果你想要微调LLaMA 2模型,如何预估成本呢?

根据LLaMA公开的信息,7B版本的训练时间为184,320小时,而70B版本则需要1,720,320小时。假设每小时一张A100 GPU运行,那么仅使用一张A100 GPU运行7B模型将需要21年的时间!当然,Meta公司使用了大量的A100 GPU来进行训练,7B模型花费了27.6万美元,而70B模型则花费了170万美元。

A100和RTX4090算力相差不大,但是显存大小和传输频宽就很重要:

在 PyTorch 训练测试中,A100 Throughput 是 4090 的 1.4 倍,H100 是 4090 的 1.6 到 2.5 倍:

至于训练算力估算可以用 6 * 模型参数量 * 训练数据 Token 数 (Flops) 预估。以Google 的Colab 平台为例,Colab Pro 会员每月10.49 USD 每月有100 个运算单元,Pro+ 会员52.49 USD 则为500 个运算单元方案说明,A100 每GPU 小时消耗 约13 个运算单元,换算一个GPU 小时约1.36 USD。

在Meta公司的LLaMA-2-7B-Chat项目中,他们使用了27,540条高质量的监督微调示例,即Supervised Fine-Tuning(SFT),以有效提升模型的品质。这些示例有助于模型更好地理解并准确回答问题。

台湾LLaMA是基于LLaMA 2的全参数微调模型,旨在增强繁体中文处理能力。它包括两个主要阶段:

  1. 预训练(Pretraining)阶段:使用8块A100 GPU进行两周的学习,使LLaMA 2模型学会了中文语言的基本特征和语法。

  2. 指导微调(Instruction Finetuning)阶段:使用8块H100 GPU进行12小时的微调。此过程通过指导模型学习Stanford-Alpaca提供的179个问题和174种不同类型的高质量多样性数据集,以显著提升模型的表现。这些数据集的特点是提供了逐步指导、详细解释和额外知识,仅使用1000条指导性微调数据就能明显改善模型性能。

此外,模型还通过自我指导(Self-Instruct)方式进行了训练。Stanford Alpaca项目从ChatGPT中获取了52,000条数据,并利用4块A100 GPU在一天内完成了7B LLaMA的训练,使其达到了类似于text-davinci-003模型的水平。

在成本方面,使用ChatGPT API的费用为500美元。而使用A100 GPU的成本则按每小时1美元计算,使用4块A100 GPU进行24小时训练的成本约为100美元。

有了以上信息,我们对于训练与微调的成本大概有了些了解。训练确实是一项耗资巨大的活动,通常需要反复尝试、不断优化,永无止境。尽管LoRA微调可以用较少的资源取得不错的效果,甚至有可能用4090型号的显卡就能实现,但购买装备和资源仍然会造成一定的经济负担。哎~

常用AI计算GPU卡规格比较

对于大型语言模型(LLM),目前ChatGPT仍然处于领先地位。但要开发相关应用,LLM模型的训练和执行成本都相当高昂。因此,通过整合OpenAI或Azure的API可能是一种成本效益较高的做法。

然而,有些情况下不允许数据上传到云端,或者必须重新训练或微调以满足需求,那么就需要考虑采用LLaMA、Mistral、Gemma等开源模型,并在本地端执行。

在运行LLM模型时,CPU/RAM/SSD的级别次要,最关键的是GPU。目前,H100/A100有钱也买不到。然后是工作站级别的GPU,如RTX-6000/5000/4500/4000/4000 SFF等,RTX-6000有48GB内存,不需要量化就可以直接运行13B大小的模型。再次下来是普通玩家勉强买得起的消费级显卡4090,价格为1万6-1万9人民币。如果一张不够,想要体验团结就是力量,可以考虑购买工作站级别的高端主机,可以插入四张双宽度显卡。

总之,要发挥本地端LLM的威力,仍然需要一定的经济实力。对于运行7B或13B的LLaMA 2模型,不同级别的GPU性能差异如何?花钱装两张GPU会增加性能吗?这篇文章算是对这些问题的初步探讨,仅供参考。

先看不同型号单一 GPU 跑 LLM 的效能数字:

表格有附不同 GPU 跑 llama2-7b-chat 及 llama2-13b-chat 模型的效能数字,单位为 Tokens/s。CPU 只能用惨烈形容,不到 2。4090 跑 7B 模型数字挺漂亮,甚至赢过 A100。有趣的是 8 bit 量化版的数很难看,4 bit 量化版也输给 16 bit,关于这点网路上讨论不少,我的理解这是用动态量化节省记忆体的代价。参考:2-3x slower is to be expected with load_in_4bit (vs 16-bit weights), on any model -- that's the current price of performing dynamic quantization。

既然花了时间查找了这些信息,就顺便分享给有兴趣的同学参考。接下来一个问题是,如果口袋够深,购买了可插多卡的工作站,多插几张GPU来运行推理模型是否会更快一些?我找到了一篇关于3090运行LLaMA 2 7B的测试数据(LLM Inference on multiple GPUs with 🤗 Accelerate),

图表上方为单纯推理,下方为批次模式执行。插入五张3090时,可以明显看到随着GPU数量增加,GPU间通信成本会抵消增加的算力,结果不升反降。

更多:

选择华硕龙芯主板的理由:从支持国产芯片到性价比考量

探秘Nvidia开创性的DGX-GB200机架系统背后的创新

浙江大学研究团队如何在消费级GPU上实现对100B模型微调

女科学家提出GaLore:为消费级GPU上高效训练LLM铺平道路

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
通过LLaMA-Factory可对源2.0基础模型进行微调
源2.0大模型适配LLaMA-Factory框架!微调训练快捷高效
ChatGPT之后,值得关注的垂直领域大模型
OpenAI大神Andrej爆火演讲,官方第一次揭秘大模型原理和训练过程!
微软6页论文爆火:三进制LLM,真香!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服