Nature：医疗人工智能的应用前景与陷阱

Foundation models for generalist medical artificial intelligence

作者：Moor, Michael, Banerjee, Oishi, Abad, Zahra Shakeri Hossein, Krumholz, Harlan M., Leskovec, Jure, Topol, Eric J., Rajpurkar, Pranav

Nature：2023/04/12

The exceptionally rapid development of highly flexible, reusable artificial intelligence (AI) models is likely to usher in newfound capabilities in medicine. We propose a new paradigm for medical AI, which we refer to as generalist medical AI (GMAI). GMAI models will be capable of carrying out a diverse set of tasks using very little or no task-specific labelled data. Built through self-supervision on large, diverse datasets, GMAI will flexibly interpret different combinations of medical modalities, including data from imaging, electronic health records, laboratory results, genomics, graphs or medical text. Models will in turn produce expressive outputs such as free-text explanations, spoken recommendations or image annotations that demonstrate advanced medical reasoning abilities. Here we identify a set of high-impact potential applications for GMAI and lay out specific technical capabilities and training datasets necessary to enable them. We expect that GMAI-enabled applications will challenge current strategies for regulating and validating AI devices for medicine and will shift practices associated with the collection of large medical datasets.

高度灵活、可重复使用的人工智能（AI）模型的异常快速发展可能会在医学领域带来新的能力。我们提出了一种新的医学人工智能范式，我们称之为广义医学人工智能（GMAI）。GMAI模型将能够使用很少或根本不使用特定任务的标记数据来执行一系列不同的任务。GMAI通过在大型、多样化的数据集上进行自我监督，将灵活解释不同的医疗模式组合，包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据。模型反过来会产生富有表现力的输出，如自由文本解释、口头推荐或图像注释，以展示先进的医学推理能力。在这里，我们为GMAI确定了一组具有高影响力的潜在应用，并列出了实现这些应用所需的具体技术能力和培训数据集。我们预计，支持GMAI的应用程序将挑战当前监管和验证医学人工智能设备的策略，并将改变与大型医学数据集收集相关的做法</p＞

高度灵活且可重复使用的人工智能（AI）模型的快速发展，有望给医学领域带来全新变革。对于AI在医疗的应用，有学者提出通用医疗AI（GMAI）的范式，指利用大型、多样化数据集的无监督学习，灵活结合临床医疗场景，如实验室检查结果、基因组学、医学文本标注（用不同的标签标记文章特征，如具体语义、构成、语境、目的、情感等标签）等，使用很少或没有特定任务的标记数据来执行各种任务。模型还可以输出具体内容，如自由文本解释，口头建议或图像注释等。

近日，顶刊《自然》（Nature）发表一项关于通用医疗AI临床应用潜力和局限的研究，表明通用医疗AI模型前景整体向好，在6大具体医疗场景有望早日落地，但依然面临着诸多挑战，有待进一步解决和完善。

图片来源：Nature

医疗AI现状：多为特定任务模型，临床应用受限，难以广泛使用

大模型（指网络规模巨大的深度学习模型，具体表现为模型的参数量规模较大，其规模通常在千亿级别，如大家熟知的ChatGPT就属于大模型）是新一代人工智能模型，通过对大量不同数据集的训练，应用到多个下游任务中，随着数据集的增长，模型大小的增加和模型架构的改进，大模型也达到新的高度。尽管早期已有不少研究人员尝试开发医疗AI模型，但由于大型、多样化的医疗数据集难以获取，且医疗领域尤为复杂，因此医疗AI模型尚未广泛得以应用。

目前，医疗AI模型主要还是基于特定任务而开发的相应模型，例如胸部X射线训练集模型，将每个图像明确标记是否属于肺炎，这意味着需要大量的人工标注，且这种模型只能用于判断是否为肺炎，但无法做完整的诊断练习，即撰写一份完整的影像学报告。这种狭隘、基于特定任务的范式生成的模型很不灵活，仅限于执行由训练数据集及标签预先定义的任务，而在临床实践中，这种模型无法完成其他任务，甚至无法很好的完成同一任务的不同数据。在美国食品药品监督管理局（FDA）批准的500多个医疗模型中，大多数模型仅获批用于1~2个狭窄的任务。

最新的大模型或有望打破这种特定任务范式，其中包含多模型架构和无需显式标签的无监督学习技术，如语言建模、对比学习、上下文学习等。这些技术的进步使通用医疗AI的发展成为可能，“通用”意味着医疗AI有望广泛应用于医疗，并在很大程度上取代特定任务模型。

通用医疗AI模型与传统医学AI模型最大的区别是什么？

通用医疗AI模型与传统医学AI模型在3个关键功能上有明确的区别：

1）通用医疗AI模型很容易应用到新任务中，只需要告诉通用医疗AI模型具体任务是什么（动态任务规范），而不需要再做额外训练。

2）通用医疗AI模型可接收不同数据模态的灵活组合并输出结果，如可接收图像、文本、实验室检查结果或其他任何组合。这种灵活的交互性与多模态模型形成鲜明对比，因为多模态模型使用预定义的模态集作为输入和输出，如必须同时接收图像、文本或是实验室检查结果。

3）通用医疗AI模型允许利用非定向任务进行推理，再使用准确的医学术语来解释输出的内容。

▲通用医疗AI模型概述（图片来源：参考文献[1]）

图a：利用诸如无监督学习技术，在多种医学数据模态上训练通用医疗AI模型；图b：通用医疗AI模型为临床跨学科应用奠定基础，每个应用都需要验证和监督

通用医疗AI模型在医疗领域应用的潜力

通用医疗AI模型有望解决比当前医疗AI模型更多样化和更具挑战的任务，甚至特定任务都不需要标注。最近发布的AI模型已经可以灵活结合各种模式，但距离实现通用医疗AI模型的3个重要功能，仍有不少待提高空间，如现有具有医学推理模型并非多模态，且尚无法完全生成可靠的医学事实陈述，如GPT-3或PaLM。

潜力1：灵活互动

通用医疗AI模型为用户提供了自定义查询和模型交互的能力，使不同受众更容易理解AI输出的内容，在任务和设置方面也更为灵活。

自定义查询利用了通用医疗AI模型的动态任务规范和多模式输入和输出的能力。

自定义查询能力允许用户随意提问：

“请解释下这个头部MRI扫描结果的肿块，更可能是肿瘤还是脓肿？”

查询能力还允许用户自定义输出的格式，如：

“这是个胶质母细胞瘤患者的MRI结果，请用红色标记出所有的肿瘤”。

此外，自定义查询还可以回答具体的问题，如：

“就这个超声结果来看，患者的胆囊壁有多厚（毫米）？”

但通用医疗AI模型可能还难以完成涉及到未知概念或病理的任务，如：

“这里是过去10位患者的既往病史，他们患有一种新发疾病，即琅琊亨尼帕病毒感染。我们现在的患者感染琅琊亨尼帕病毒的概率有多大？”

通用医疗AI模型的多模式输入和输出的能力可以输出不同模式的回应，如用户要求同时输出文本和可视化图片。继Gato等模型后，通用医疗AI模型可以整合指定患者的整个患病史，包括波形信号、实验室检查结果、报告和影像结果等。

潜力2：医学知识

通用医疗AI模型模型可形式化地表示医学知识（即能够被计算机可读和处理），如知识图谱可以允许模型推理医学概念及其关联关系。基于最新的检索方式，通用医疗AI模型还可以从现有的数据库检索相关上下文，以文本、图像等形式呈现。这意味着通用医疗AI模型可做出临床推断，如：

“患者因严重的胸部创伤入院，虽然氧流量增加，但动脉氧分压持续下降，考虑可能发展为急性呼吸窘迫综合征”。

最后，通过获取丰富的分子分型和临床知识，通用医疗AI模型还可以利用知识来解决有限数据的任务，如基于AI的药物再利用，计算机技术让海量信息挖掘和数据连接成为可能，既有药物的安全性已经过验证，也有助于加快研发进程。

通用医疗AI模型在医疗领域应用的6大具体案例

通用医疗AI模型在医疗领域的应用很难穷举，这里文章提出了针对不同用户和学科的6大潜在应用方向，以期通用医疗AI模型可以为不同的应用场景提供更为全面的解决方案。

案例1：出具影像学报告

通用医疗AI模型可在影像科医生的整个工作流程中提供支持，减少医生工作量。具体来说，通用医疗AI模型可起草影像学报告，包括结合患者病史，以及正常或异常的结果，再以文本匹配可视化交互为临床医生提供建议。医生可以与通用医疗AI模型沟通来加深对患者病情的认识，如：

“能否突出显示上一张图像中无多发性硬化病变的区域” ？

而既往多通过专家标记图像进行监督学习的方式来实现，但Grad-CAM等方法可以实现无监督学习，无需标记数据。

案例2：辅助手术操作

通用医疗AI模型可以执行可视化任务，如手术团队提出：

“我们找不到患者肠道破裂处，请检查在最后的15分钟操作中是否错过了肠道切片视图？”

通用医疗AI模型也可以以口头提醒的方式提供有效信息，例如当操作者跳过某个手术步骤时发出警示，或是当医生遇到罕见解剖病例时可协助查阅相关文献。此外，也可应用于微创手术操作，如内窥镜手术。通用医疗AI模型可以通过解剖学知识全面解构操作过程中遇到的情况，如十二指肠镜检查中发现大血管，表明可能存在主动脉十二指肠溃疡。

不过，在手术操作场景部署通用医疗AI模型可能会遇到临床罕见情况，这些罕见情况在开发通用医疗AI模型时无法被纳入，被称为“看不见的长尾挑战”。因此，模型的医学推理能力对于发现罕见异常情况并做出合理解释就显得尤为重要。

案例3：床旁决策支持

通用医疗AI模型支持一类新的床旁决策支持工具，该工具扩展了现有基于AI的早期预警系统，可提供更为详细的临床解释和未来护理建议，例如利用临床知识提供自由文本解释和数据摘要：

“警告：这位患者即将发生休克。在过去的15分钟内他的体内循环不稳定<链接到数据摘要>，建议后续操作……<链接到检查表>。”

这需要通用医疗AI模型能够解析电子健康记录源，如患者生命体征、实验室参数和临床记录，这类源涉及到多种模态，如文本和数字时间序列数据等。通用医疗AI模型要能够从原始数据中总结患者当前状态，预测未来潜在状态，并根据现行治疗指南和其他相关政策推荐治疗决策。此外，还需要将语音数据和电子健康记录信息结合，生成自由文本注释或报告，在与患者互动前，需要征求患者知情同意等等。

▲通用医疗AI模型临床应用示例（图片来源：参考文献[1]）

图a：通用医疗AI模型可支持床边决策；图b：通用医疗AI模型可提供放射学报告，配有可点击链接，并可视化展现；图c：通用医疗AI模型可以对开发过程中未遇到的情况进行分类

案例4：陪伴患者的聊天机器人

通用医疗AI模型有望为患者提供新的应用，甚至是院外护理，如构建患者整体状况视图，范围可包含非结构化的症状描述、用药日志等，在解构这些数据后，通用医疗AI模型可以与患者进行交互，提供详细的建议和解释。重要的是，通用医疗AI模型能够实现无障碍交互，提供给患者清晰、可读或可听的具体信息。不过，通用医疗AI模型在患者端的应用也面临相关挑战：

1）如何保证输出的内容简单明了，用非专业语言向患者解释的同时，也不牺牲掉内容的准确性。

2）由于需要结合患者多项数据，如何保证患者不漏提供，提供的信息准确无误，避免因错误数据造成的错误推荐？

3）如果没有足够可靠的数据来源，如何确保能够输出具体内容及内容的准确性？

案例5：根据文本提示完成蛋白质序列开发

通用医疗AI模型可根据文本提示生成蛋白质氨基酸序列及其三维结构。通用医疗AI模型可利用丰富的生物医学知识参与蛋白质设计接口，使用从文本到图像的生成模型，如Stable Diffusion 和 DALL-E，提示生成的蛋白质氨基酸序列及其三维结构。此外，利用上下文学习能力，通用医疗AI模型还可以通过与序列配对的少量示例指令，动态定义新任务，如：生成以高亲和力结合到指定靶标并满足附加条件的蛋白质。

目前，已经有基于简单规范生成蛋白质的开发生物序列AI模型，在此基础上，通用医疗AI模型可以做“升级”，如利用多模态AI最新研究进展（如CLIP），在不同模态的配对数据上做联合训练等。现有的大规模蛋白质数据库，如UniProt，可以绘制出数百万种蛋白质的功能，可能是未来模型开发过程中不可或缺的重要组成。

案例6：交互式笔记

临床工作中文档的使用不可或缺，通过患者信息、患者与医生的对话等，通用医疗AI模型可初步起草电子病历、出院报告等文档，以供医生审查、编辑和确认。这将大大节省临床医生写病案的时间，省出来的时间可充分与患者沟通。

这需要借助到语音转文本的能力，在医疗场景应用时，还需要考虑到能否准确识别语音，理解医学术语或缩写。此外，通用医疗AI模型也需要将语音数据与电子健康记录结合，生成自由文本和报告，以及获得患者知情同意等等。

通用医疗AI模型在医疗领域应用的挑战

相比于在其他领域的应用，医疗场景对于AI模型提出了更高要求，通用医疗AI模型的临床应用面临以下挑战：

1）验证结论难度较大：目前，医疗AI模型都是为特定任务而开发的，所以只需要对预定义状况做处理，如从脑部MRI结果，诊断特定类型的癌症，而通用医疗AI模型可以对用户提出的过往未涉及到的状况做处理，如根据脑部MRI结果诊断出所有可能的疾病。这对通用医疗AI模型提出了更高的挑战，如通用医疗AI模型是如何测试的？可以被获批用于哪些场景？此外，对于未知的内容，通用医疗AI模型应提出使用警告，而不是“一本正经的胡说八道”。

2）内容准确性有待提高：通用医疗AI模型可以处理非常复杂的输入内容，这会导致对内容准确性的判断变得更加困难。例如传统AI模型做癌症分类时，仅考虑影像学或病理学结果，那就只需要影像科或病理科医生来验证输出的结果是否准确。但通用医疗AI模型在前面的基础上，还能输出初始分类、治疗建议、统计分析和参考文献等，这种情况下可能需要多学科专家共同判断输出内容的准确性，如由影像科、病理科、肿瘤科医生组成的多学科专家小组。这意味着，对通用医疗AI模型输出内容的事实核查，将成为必须面临的重大挑战。

3）如何保护个人隐私？通用医疗AI模型的开发和使用都会涉及到个人隐私，如患者临床检查结果、人口学信息、行为统计信息等，当有类似情况出现时，通用医疗AI模型可能会记住相关数据并输出，这就可能暴露患者的敏感信息。通过去标识化和限制对个人信息的收集量，可以减少一部分信息暴露风险。但个人隐私暴露问题不仅发生在训练数据，部署通用医疗AI模型的过程中同样可能暴露个人信息。例如某些恶意操作强制让模型忽略指令要求，提取敏感数据，这个被强制修改的指令可能是“通用医疗AI模型永远不能向未经过认证的用户透露任何患者信息”。

4）数据收集和模型训练成本激增：现有的医疗AI模型是通过爬取Web信息做数据训练，而这些通用的数据源并不只关注医疗，而且信息准确性也有待商榷。通用医疗AI模型可能需要专项医疗领域的大量数据集，这些数据集必须是多样化、匿名的，使用过程也必须符合相关机构和监管机构的政策要求。此外，大规模数据模型需要大量训练数据集，意味着训练成本高昂。这就提出了新的挑战：究竟数据集合模型多大才合适？但实际情况却可能是这样的，收集医疗数据的需求取决于医疗实际应用情况，甚至无法对数据需求做出准确的预估。此外，通用医疗AI模型在医疗场景的部署也相当具有挑战性，需要有高端的硬件设备做支持，在医院可能很难部署。对于以上问题的解决方案，或许可以从本地部署，不上云；利用知识蒸馏技术减小模型规模等方式来处理。

小结

总之，通用医疗AI模型可动态学习新任务，并利用医疗领域知识，为几乎无限范围的医疗任务提供帮助。通用医疗AI模型的灵活性可以应用于不同新场景，与医疗技术更新保持同步，无需重新开始训练。将通用医疗AI模型部署在传统医疗场景和远程设备（如智能手机）上，预计将使不同人群受益。但同时也需要指出的是，尽管通用医疗AI模型前景整体向好，但依然面临着诸多挑战，有待进一步解决和完善。

参考资料

[1] Moor, M., Banerjee, O., Abad, Z.S.H.et al. Foundation models for generalist medical artificial intelligence. Nature 616, 259–265 (2023). https://doi.org/10.1038/s41586-023-05881-4

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。