打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
LLMPruner:大语言模型裁剪工具
userphoto

2023.04.11 陕西

关注

LLMPruner是一个大语言模型裁剪工具,通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到的知识。

大语言模型(LLM, Large Language Model)犹如雨后春笋般,其虽然效果惊艳,但参数量巨大,让普通玩家望而却步。 如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model),如LLaMA、mT5、Bloom等,其词表规模巨大,占据非常大部分的模型参数,如Bloom具有25万词表。 在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。

然而在许多下游任务中,我们往往只需要使用到一两种语言,例如在中文场景中,一般只会用到中英文。 我们可以对大语言模型的词表进行裁剪,只留下所需的部分,这样不仅能够充分保留模型的预训练知识,并且能够使用更少的显卡进行下游任务的finetune,提升训练效率。

传送门:(
https://github.com/yangjianxin1/LLMPruner)

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Firefly(流萤): 中文对话式大语言模型
综述 | 跨语言自然语言处理笔记
爆款新模型全面碾压BERT?预训练语言模型井喷的2019
词表的选择如何影响语言模型训练?这可能是目前见过最好的词表选择研究
数据分析工具那么多,我为什么选择R语言?
[ENVI深度学习] 利用SuperView数据进行建筑物提取测试
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服