
2025年4月23日,Nature子刊《Nature Medicine》(医学一区,IF=58.7)连发两篇重磅文章,聚焦DeepSeek大型语言模型在临床诊疗中的表现,让我们一起来看看国产DeepSeek到底有多厉害!



两篇论文的视频解读

DeepSeek在临床决策中的表现
如今,大型语言模型(LLM)在医疗领域越来越受欢迎。为了验证DeepSeek-V3和DeepSeek-R1的临床实用性,研究者们将它们与一些专有LLM(比如GPT-4o和Gemini-2.0 Flash Thinking Experimental)进行了对比测试。测试用的病例有125例,涵盖了各种常见和罕见疾病,数量足够多,能保证结果的可靠性。
在诊断方面,Gem2FTE的表现最好,DeepSeek-R1和GPT-4o打了个平手。
而在治疗方面,GPT-4o和DeepSeek-R1都比Gem2FTE更胜一筹,DeepSeek-R1和GPT-4o的表现又不相上下。和早期的GPT-4、GPT-3.5相比,GPT-4o和DeepSeek-R1都有了明显的进步,但Gem2FTE就没那么幸运了。

DeepSeek在医疗任务和临床推理方面的表现
DeepSeek很厉害,专门增强了推理能力。不过,之前还没人评估过它在医疗领域的能力。这次,研究者们对三个LLM(DeepSeek-R1,ChatGPT-o1和Llama 3.1-405B)进行了测试,测试内容包括四种医疗任务:
- 回答美国医疗许可考试(USMLE)中的问题;
- 基于文本的诊断和管理案例的解释和推理;
- 根据RECIST 1.1标准提供肿瘤分类;
- 提供跨多种模式的诊断成像报告摘要。
在USMLE测试中,DeepSeek-R1的准确率是0.92,稍微比ChatGPT-o1(准确率0.95)差一点,但比Llama 3.1-405B(准确率0.83)强不少。

对于基于文本的病例挑战,DeepSeek-R1和ChatGPT-o1表现差不多,它们用的数据库分别是新英格兰医学杂志(NEJM)和Medicilline。
在肿瘤分类方面,DeepSeek-R1和ChatGPT-o1的表现也差不多(0.73 vs 0.81;p = 0.10)。

不过,DeepSeek-R1在提供诊断推理步骤时,被认为比ChatGPT和Llama 3.1-405B更准确。
但是,DeepSeek-R1提供的汇总成像报告的整体质量,还是比ChatGPT-o1差一点(5分Likert评分:4.5 vs 4.8)。

这两项研究都表明,DeepSeek很有潜力成为开源医疗AI的“大明星”。它的诊断推理能力已经达到了临床可用的水平,虽然在知识覆盖深度和生成任务精细化程度上还有提升空间,但只要持续用本地数据进行微调,未来有望发展成一个既安全又可控的临床决策支持系统。

关于AI/数据科学+医疗健康,你有什么想知道的?欢迎留言