训练大模型有多烧钱？（含常用GPU规格比较）

本文整理自网络blog

这位博主还几篇关于大模型的文章非常不错，小编我就一起整理成一篇文章。

训练大模型有多烧钱？

要理解大型语言模型（LLM）的运行，首先需要了解其所需的硬件配置。除了GPU之外，显卡内存也是至关重要的。以Meta公司发布的LLaMA 2模型为例，其包括70B、13B、7B等不同参数规模的模型，而这些模型需要的GPU内存也各不相同。比如，要运行完整的70B模型，需要320GB的GPU内存；而对于13B模型，则需要50GB的GPU内存，7B模型则需要30GB的GPU内存。

然而，通过量化技术，可以在一定程度上牺牲模型的精确度，以减少内存的使用量。这意味着，即使你可能会牺牲一些模型的准确性，但你可以将内存使用量减半，甚至降低到原来的1/4或1/8。因此，如果你可以接受与性能稍逊的机器人对话，那么即使没有独立显卡，仅仅使用CPU也能够运行LLaMA 2。

Meta公司开源的LLM项目(LLaMA 2)具有许多优点，其中一个重要的优点是你可以重新训练或微调模型，使其符合你的需求。这为应用场景带来了无限的可能性。

然而，值得注意的是，训练和微调LLM是非常昂贵的。以前提到的OpenAI模型微调的成本为每小时34至103美元。那么，如果你想要微调LLaMA 2模型，如何预估成本呢？

根据LLaMA公开的信息，7B版本的训练时间为184,320小时，而70B版本则需要1,720,320小时。假设每小时一张A100 GPU运行，那么仅使用一张A100 GPU运行7B模型将需要21年的时间！当然，Meta公司使用了大量的A100 GPU来进行训练，7B模型花费了27.6万美元，而70B模型则花费了170万美元。

A100和RTX4090算力相差不大，但是显存大小和传输频宽就很重要：

在 PyTorch 训练测试中，A100 Throughput 是 4090 的 1.4 倍，H100 是 4090 的 1.6 到 2.5 倍：

至于训练算力估算可以用 6 * 模型参数量 * 训练数据 Token 数 (Flops) 预估。以Google 的Colab 平台为例，Colab Pro 会员每月10.49 USD 每月有100 个运算单元，Pro+ 会员52.49 USD 则为500 个运算单元方案说明，A100 每GPU 小时消耗约13 个运算单元，换算一个GPU 小时约1.36 USD。

在Meta公司的LLaMA-2-7B-Chat项目中，他们使用了27,540条高质量的监督微调示例，即Supervised Fine-Tuning（SFT），以有效提升模型的品质。这些示例有助于模型更好地理解并准确回答问题。

台湾LLaMA是基于LLaMA 2的全参数微调模型，旨在增强繁体中文处理能力。它包括两个主要阶段：

预训练（Pretraining）阶段：使用8块A100 GPU进行两周的学习，使LLaMA 2模型学会了中文语言的基本特征和语法。
指导微调（Instruction Finetuning）阶段：使用8块H100 GPU进行12小时的微调。此过程通过指导模型学习Stanford-Alpaca提供的179个问题和174种不同类型的高质量多样性数据集，以显著提升模型的表现。这些数据集的特点是提供了逐步指导、详细解释和额外知识，仅使用1000条指导性微调数据就能明显改善模型性能。

此外，模型还通过自我指导（Self-Instruct）方式进行了训练。Stanford Alpaca项目从ChatGPT中获取了52,000条数据，并利用4块A100 GPU在一天内完成了7B LLaMA的训练，使其达到了类似于text-davinci-003模型的水平。

在成本方面，使用ChatGPT API的费用为500美元。而使用A100 GPU的成本则按每小时1美元计算，使用4块A100 GPU进行24小时训练的成本约为100美元。

有了以上信息，我们对于训练与微调的成本大概有了些了解。训练确实是一项耗资巨大的活动，通常需要反复尝试、不断优化，永无止境。尽管LoRA微调可以用较少的资源取得不错的效果，甚至有可能用4090型号的显卡就能实现，但购买装备和资源仍然会造成一定的经济负担。哎~

常用AI计算GPU卡规格比较

对于大型语言模型（LLM），目前ChatGPT仍然处于领先地位。但要开发相关应用，LLM模型的训练和执行成本都相当高昂。因此，通过整合OpenAI或Azure的API可能是一种成本效益较高的做法。

然而，有些情况下不允许数据上传到云端，或者必须重新训练或微调以满足需求，那么就需要考虑采用LLaMA、Mistral、Gemma等开源模型，并在本地端执行。

在运行LLM模型时，CPU/RAM/SSD的级别次要，最关键的是GPU。目前，H100/A100有钱也买不到。然后是工作站级别的GPU，如RTX-6000/5000/4500/4000/4000 SFF等，RTX-6000有48GB内存，不需要量化就可以直接运行13B大小的模型。再次下来是普通玩家勉强买得起的消费级显卡4090，价格为1万6-1万9人民币。如果一张不够，想要体验团结就是力量，可以考虑购买工作站级别的高端主机，可以插入四张双宽度显卡。

总之，要发挥本地端LLM的威力，仍然需要一定的经济实力。对于运行7B或13B的LLaMA 2模型，不同级别的GPU性能差异如何？花钱装两张GPU会增加性能吗？这篇文章算是对这些问题的初步探讨，仅供参考。

先看不同型号单一 GPU 跑 LLM 的效能数字：

表格有附不同 GPU 跑 llama2-7b-chat 及 llama2-13b-chat 模型的效能数字，单位为 Tokens/s。CPU 只能用惨烈形容，不到 2。4090 跑 7B 模型数字挺漂亮，甚至赢过 A100。有趣的是 8 bit 量化版的数很难看，4 bit 量化版也输给 16 bit，关于这点网路上讨论不少，我的理解这是用动态量化节省记忆体的代价。参考：2-3x slower is to be expected with load_in_4bit (vs 16-bit weights), on any model -- that's the current price of performing dynamic quantization。

既然花了时间查找了这些信息，就顺便分享给有兴趣的同学参考。接下来一个问题是，如果口袋够深，购买了可插多卡的工作站，多插几张GPU来运行推理模型是否会更快一些？我找到了一篇关于3090运行LLaMA 2 7B的测试数据（LLM Inference on multiple GPUs with 🤗 Accelerate），

图表上方为单纯推理，下方为批次模式执行。插入五张3090时，可以明显看到随着GPU数量增加，GPU间通信成本会抵消增加的算力，结果不升反降。

选择华硕龙芯主板的理由：从支持国产芯片到性价比考量

探秘Nvidia开创性的DGX-GB200机架系统背后的创新

浙江大学研究团队如何在消费级GPU上实现对100B模型微调

女科学家提出GaLore：为消费级GPU上高效训练LLM铺平道路

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。