打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
微软开源DeepSpeed深度学习库,可以训练大量1000亿参数的模型

微软Ai研究院开源了一个名为DeepSpeed的深度学习库,以简化对大型模型的分布式训练

在AI项目中,我们往往需要具有更大的NLP模型才能获得更高的准确性。

但是,训练更大的NLP模型非常耗时,而且成本巨大。

微软声称,新的DeepSpeed深度学习库可提高速度,降低成本,扩大规模和可用性。

DeepSpeed支持多达1000亿个参数模型的语言模型,其中包括ZeRO(零冗余优化器),减少了模型和数据并行化所需的资源,同时增加了可训练的参数数量。

微软研究人员使用DeepSpeed和ZeRO开发了新的图灵自然语言生成(Turing-NLG),这是具有170亿个参数的最大语言模型。

Turing-NLG的参数为170亿个,是英伟达的Megatron的两倍,其参数是OpenAI的GPT-2的十倍。Turing NLG在一系列NLP任务上均达到了最新水平。

DeepSpeed的亮点:

规模:

拥有最先进的大型模型,例如OpenAI GPT-2、NVIDIA Megatron-LM、Google T5、Turing-NLG,分别具有15亿、83亿、110亿、170亿个参数。

DeepSpeed第一阶段提供系统支持,以运行多达1000亿个参数的模型。

速度:

在各种硬件上,我们目前观察到的吞吐量是最新技术的五倍。

在具有低带宽互连的NVIDIA GPU群集上,与仅对具有15亿参数的标准GPT-2模型使用Megatron-LM相比,微软的吞吐量提高了3.75倍。

在具有高带宽互连的NVIDIA DGX-2群集上,对于20至800亿个参数的模型,速度要快三到五倍。

成本:

提高吞吐量可以转化为大大降低的培训成本。例如,要训练具有200亿个参数的模型,DeepSpeed需要的资源要少三倍。

可用性:

只需更改几行代码就可以让PyTorch模型能够使用到DeepSpeed和ZeRO。与当前的模型并行性库相比,DeepSpeed不需要重新设计代码或重构模型。


开源项目GitHub地址:https://github.com/microsoft/DeepSpeed

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
微软发布史上最大AI模型:170亿参数,将用于Office套件
微软开源深度学习优化库 DeepSpeed 连登 GitHub 趋势榜!
科技巨头微软推出Turing-NLG,目前规模最庞大的AI语言模型
陈根:超强语言模型,参数数量提升3倍
大语言模型: 新的摩尔定律?
微软和英伟达推出迄今为止训练最大最强的语言模型 MT
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服