浅析 | 大语言模型细节、训练及微调

在之前推文中，笔者从初学者角度简要阐述AI1.0和AI2.0，详见文章浅析 | 从AI1.0到AI2.0 — 概念、原理及技术，并在文中推荐阅读综述《A Survey of Large Language Models》（2023年），现已上传其对应的中文版本，私信本号'PPT'获取。最近，笔者关注的知乎博主"回旋托马斯x"（文章链接详见附录）最近也发表了类似PPT综述，介绍大模型结构、训练目标、位置编码、tokenizer、层归一化、激活函数及多头注意力机制等重要细节；同时对大模型数据并行、张量并行、零冗余优化器ZeRO、混合精度训练、Flash Attention、Paged Attention等主流常见的分布式训练技术进行了分析汇总；最后对prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA大模型高效微调技术也进行说明，虽然关于高效微调技术的内容在笔者往期文章中大部分已提到，但为了保持原作文章完整性，这里做了保留。"回旋托马斯x"的综述很适合作为笔者之前文章的姊妹篇或进阶篇，该综述针对大模型及其前沿技术做了更为具体全面的介绍，非常利于大家按图索骥理解并掌握大模型最核心的学习脉络，因此，在经作者允许情况下，笔者将其梳理如下。

参考

https://zhuanlan.zhihu.com/p/647843722

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。