打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
中国的平价开源AI模型DeepSeek惊艳全球科学家

https://mp.weixin.qq.com/s/TzMxBlq4UrktPlWMyqPzxQ

原文作者:Elizabeth Gibney

DeepSeek-R1在推理任务中的表现媲美OpenAI的o1——而且开放给研究人员研究。

中国公司DeepSeek(深度求索)去年首次推出一款大语言模型。来源:Koshiro K/Alamy

日前,来自中国的大语言模型DeepSeek-R1震动了整个科学圈,对于OpenAI的o1一类的“推理”模型来说,这个负担得起的开源模型成了它们的竞争对手。

这类模型能以类似人类推理的过程生成逐步式回答。这使得这些模型比之前的语言模型更擅长解决科学问题,并有望在科研中发挥作用。1月20日发布的对R1的初步测试显示,其在特定化学、数学和代码任务上的表现与o1不相上下,OpenAI去年9月发布的o1曾令科研人员赞叹不已。

“这太疯狂了,完全出乎意料,”英国AI咨询公司DAIR.AI的联合创始人、AI研究员Elvis Saravia 在X上写道。

R1令人赞叹的原因还有一个。构建该模型的DeepSeek(深度求索)是杭州的一家初创公司,该公司以“open-weight”的形式发布了该模型,open-weight允许科研人员研究并继续构建这个算法。这个模型使用MIT许可证,能免费重复使用,但不属于完全开源,因为其训练数据并未公开。

DeepSeek的开源很了不起,”德国马克斯·普朗克光学研究所Artificial Scientist Lab负责人Mario Krenn称赞道。相比之下,他说,旧金山的OpenAI构建的o1等模型,包括其最新的o3,“基本上都是黑箱”。

DeepSeek还没有公布训练R1的总成本,但使用其界面的用户只需支付使用o1 的1/30。这家公司还创建了R1的“蒸馏”迷你模型,让算力有限的研究人员也能上手。“在o1上要花300多英镑的一个实验,用R1只要不到10美元,”Krenn说,“这种巨大差异肯定会影响模型的未来采用。”

挑战模型

R1是中国大语言模型(LLM)崛起的一个缩影。DeepSeek脱胎于一家对冲基金公司,上个月横空出世发布了名为V3的对话机器人——该机器人虽然预算不高,但成功打败了几大主要对手。专家估计,它大概花了600万美元租借训练模型的硬件,而Meta的Llama 3.1 405B至少花了6000万美元,使用的计算资源为前者的11倍。

关于DeepSeek的热议还包括:R1诞生于美国对中国公司的出口管制之下——美国禁止中国获得当前最好的AI处理计算芯片。“R1来自中国的事实表明,有效利用现有资源比只关注计算规模更重要。”西雅图的AI研究员François Chollet说道。

DeepSeek的进展说明,“大家以为的美国领先优势已经大大缩小,”华盛顿的技术专家、台湾沉浸式科技公司宏达电(HTC)的Alvin Wang Graylin在X上写道,“中美两国应该联手打造先进AI,而不是继续没有赢家的装备竞赛。”

思维链

大语言模型的训练需要使用数以十亿计的文本,将它们拆分成字词单元的 “token”,并学习数据中的模式。这些关联让大语言模型能预测一句话中接下来会出现的token。但大语言模型很容易发明事实,这种现象被称为“幻觉”(hallucination),而且往往难以对问题进行推理。

和o1一样,R1使用“思维链”方法提升大语言模型解决更复杂任务的能力,包括有时能回溯和评估其方法。DeepSeek利用强化学习通过“微调”V3构建了R1——即在模型获得正确答案并概述其解决问题的“思考”方式时进行奖励。

来源:DeepSeek

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Kimi的数学模型来了,这次甚至能挑战高考
OpenAI科学家盛赞中国大模型:算法非常强,算力用到极致!
复盘2024,大模型的商业化主线是什么?
专家称人工智能正在学会思考
中国大模型价格战背后的真相
2024,“大模型六小虎”逐梦AI圈
更多类似文章 >>
生活服务
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服