打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
DeepSeek在医疗领域“大展身手”,与ChatGPT不相上下!

2025年4月23日,Nature子刊《Nature Medicine》(医学一区,IF=58.7)连发两篇重磅文章,聚焦DeepSeek大型语言模型在临床诊疗中的表现,让我们一起来看看国产DeepSeek到底有多厉害!

两篇论文的视频解读

(学术可视化联系小编,中英文均可)

DeepSeek在临床决策中的表现

如今,大型语言模型(LLM)在医疗领域越来越受欢迎。为了验证DeepSeek-V3和DeepSeek-R1的临床实用性,研究者们将它们与一些专有LLM(比如GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了对比测试。测试用的病例有125例,涵盖了各种常见和罕见疾病,数量足够多,能保证结果的可靠性。

在诊断方面,Gem2FTE的表现最好,DeepSeek-R1和GPT-4o打了个平手。

而在治疗方面,GPT-4o和DeepSeek-R1都比Gem2FTE更胜一筹,DeepSeek-R1和GPT-4o的表现又不相上下。和早期的GPT-4、GPT-3.5相比,GPT-4o和DeepSeek-R1都有了明显的进步,但Gem2FTE就没那么幸运了。

DeepSeek在医疗任务和临床推理方面的表现

DeepSeek很厉害,专门增强了推理能力。不过,之前还没人评估过它在医疗领域的能力。这次,研究者们对三个LLM(DeepSeek-R1,ChatGPT-o1和Llama 3.1-405B)进行了测试,测试内容包括四种医疗任务:

- 回答美国医疗许可考试(USMLE)中的问题;

- 基于文本的诊断和管理案例的解释和推理;

- 根据RECIST 1.1标准提供肿瘤分类;

- 提供跨多种模式的诊断成像报告摘要。

在USMLE测试中,DeepSeek-R1的准确率是0.92,稍微比ChatGPT-o1(准确率0.95)差一点,但比Llama 3.1-405B(准确率0.83)强不少。

DeepSeek-R1 与 ChatGPT-o1 和 Llama 3.1-405B 在 USMLE 测试中的准确率对比

对于基于文本的病例挑战,DeepSeek-R1和ChatGPT-o1表现差不多,它们用的数据库分别是新英格兰医学杂志(NEJM)和Medicilline。

在肿瘤分类方面,DeepSeek-R1和ChatGPT-o1的表现也差不多(0.73 vs 0.81;p = 0.10)。

DeepSeek-R1 与 ChatGPT-o1 在 RECIST 分类中的表现对比

不过,DeepSeek-R1在提供诊断推理步骤时,被认为比ChatGPT和Llama 3.1-405B更准确。

但是,DeepSeek-R1提供的汇总成像报告的整体质量,还是比ChatGPT-o1差一点(5分Likert评分:4.5 vs 4.8)。

DeepSeek-R1 与 ChatGPT-o1 在汇总成像报告质量上的对比

这两项研究都表明,DeepSeek很有潜力成为开源医疗AI的“大明星”。它的诊断推理能力已经达到了临床可用的水平,虽然在知识覆盖深度和生成任务精细化程度上还有提升空间,但只要持续用本地数据进行微调,未来有望发展成一个既安全又可控的临床决策支持系统。

关于AI/数据科学+医疗健康,你有什么想知道的?欢迎留言

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Nature连发两篇!DeepSeek在临床诊疗方面的应用与ChatGPT效果相当
DeepSeek、Grok对医生能有多大的帮助?
双杀ChatGPT和Llama,Deepseek是如何爆炸性崛起的?
苹果发文质疑:大语言模型根本无法进行逻辑推理(20241013)
Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王
碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!
更多类似文章 >>
生活服务
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服