谷歌开源SEED RL强化学习框架，训练成本降低多达80%

智东西（公众号：zhidxcom）编 | 韦世玮

智东西3月24日消息，美国当地时间3月23日，谷歌开源了一个名为SEED RL的强化学习（RL）框架，能够将人工智能（AI）模型训练扩展到数千台机器，有助于在一台机器上以每秒数百万帧的速度进行训练，并将训练成本降低多达80%。

这一强化学习框架的开源，也将为那些AI创企和小型AI实验室创造一个低成本、公平的竞争环境。

据了解，该研究论文已于2019年10月15日提交在预印本平台arXiv，并在今年2月11日进行了最新修订，名为《SEED RL：具有加速的集中推理功能的可扩展且高效的Deep-RL（SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference）》。

论文链接：https://arxiv.org/abs/1910.06591

一、为何要研发并开源RL框架？快手刷赞平台

实际上，就现阶段而言，在云端训练复杂的机器学习模型十分昂贵。

据研究报告数据，华盛顿大学（University of Washington）的Grover专为生成和检测假新闻而设计，该模型在两周的在训练中共花费了2.5万美元；OpenAI训练其GPT-2语言模型，每小时需花费256美元；谷歌训练其BERT双向转换器模型，预估也花费了6912美元。

而这些模型前期的训练成本，对一些大型AI实验室或科技巨头来说也许不足为提，但对于许多的AI创企和小型AI实验室而言，却带来了压力。

二、SEED RL的特点与性能

基于谷歌的TensorFlow 2.0框架，SEED RL的特点是能通过集中模型推理，来利用图形卡和TPU（张量处理单元）。

为了避免数据传输瓶颈，SEED RL还使用学习器组件来集中执行AI推理，而该组件也使用来自分布式推理的输入来训练模型。

此外，目标模型的变量和状态信息将保持在本地，并将每个环境步骤的观察结果发送给学习器组件。同时，由于该模型使用了基于开放源代码通用RPC框架的网络库，因此它的延迟也将保持在最低水平。

SEED RL的学习器组件能够扩展到成千上万个核心，例如在Cloud TPU上最多可扩展到2048个，而参与者的数量可扩展多达数千台机器。

同时，一种名为V-trace的算法可从中采样动作的分布，而另一种名为R2D2的算法则根据该动作的预测未来值来选择动作。

三、如何评估SEED RL性能？

为了评估SEED RL，谷歌研究团队在常用的Arcade学习环境、几种DeepMind实验室环境和谷歌足球环境中，对SEED RL进行了基准测试。

研究人员表示，他们利用SEED RL成功地解决了谷歌足球任务，并使用64个云TPU核实现了每秒240万帧的帧数，比以前最新的分布式代理提高了80倍。

“这大大缩短了挂钟时间，实现了显著的加速效果。同时，由于加速器的每次操作成本比CPU低几个数量级，因此模型实验的成本也实现了大幅降低。”在研究人员看来，SEED RL和提交的测试结果表明，在利用加速器方面，强化学习再次超越了深度学习的其他领域。

文章来源：VentureBeat

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。