微软开源DeepSpeed深度学习库，可以训练大量1000亿参数的模型

微软Ai研究院开源了一个名为DeepSpeed的深度学习库，以简化对大型模型的分布式训练。

在AI项目中，我们往往需要具有更大的NLP模型才能获得更高的准确性。

但是，训练更大的NLP模型非常耗时，而且成本巨大。

微软声称，新的DeepSpeed深度学习库可提高速度，降低成本，扩大规模和可用性。

DeepSpeed支持多达1000亿个参数模型的语言模型，其中包括ZeRO（零冗余优化器），减少了模型和数据并行化所需的资源，同时增加了可训练的参数数量。

微软研究人员使用DeepSpeed和ZeRO开发了新的图灵自然语言生成（Turing-NLG），这是具有170亿个参数的最大语言模型。

Turing-NLG的参数为170亿个，是英伟达的Megatron的两倍，其参数是OpenAI的GPT-2的十倍。Turing NLG在一系列NLP任务上均达到了最新水平。

DeepSpeed的亮点：

规模：

拥有最先进的大型模型，例如OpenAI GPT-2、NVIDIA Megatron-LM、Google T5、Turing-NLG，分别具有15亿、83亿、110亿、170亿个参数。

DeepSpeed第一阶段提供系统支持，以运行多达1000亿个参数的模型。

速度：

在各种硬件上，我们目前观察到的吞吐量是最新技术的五倍。

在具有低带宽互连的NVIDIA GPU群集上，与仅对具有15亿参数的标准GPT-2模型使用Megatron-LM相比，微软的吞吐量提高了3.75倍。

在具有高带宽互连的NVIDIA DGX-2群集上，对于20至800亿个参数的模型，速度要快三到五倍。

成本：

提高吞吐量可以转化为大大降低的培训成本。例如，要训练具有200亿个参数的模型，DeepSpeed需要的资源要少三倍。

可用性：

只需更改几行代码就可以让PyTorch模型能够使用到DeepSpeed和ZeRO。与当前的模型并行性库相比，DeepSpeed不需要重新设计代码或重构模型。

开源项目GitHub地址：https://github.com/microsoft/DeepSpeed

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。