为什么人工智能还不能取代医生？这里有 5 个理由

人工智能（Artificial Intelligence，AI）是人类开发出的，具有与人类似的智能的机器，也是互联网热点在近年来和医疗走得最近的一次。

有人担心，太过「聪明」的机器会让大量从事重复劳动的人「下岗」，比如目前在开发的影像或病理诊断 AI——这些开发者常常会用一些「比赛」来告诉大家，机器诊断的准确率比经验丰富的医生还高。

没必要太过担心，这儿有 5 个理由。

AI 无法判断适合用于诊断的样本

不管文献报道中 AI 诊断的准确率如何之高，也不管是乳腺癌、糖尿病还是皮肤癌，我们都不要忘记，AI 的学习过程中使用的训练样本（training set）和测试样本（test set）都是由专家提供的 ^[1-3]。

尤其是用于写文献和发表成果的 test set ——它们已经事先经过人类医学专家的审核，认为是适合用于目标领域疾病诊断的数据。但临床病例要复杂的多。如果没有事先确认，目前的 AI 自己根本不知道哪些切片应该用来进行乳腺癌淋巴结转移诊断。

由于疾病诊断 AI 目前没有公开使用的测试产品，不过，我们还有一个好玩儿的例子。

AppStore 有一款炙手可热的花卉识别 App，采用了非常前沿的深度学习，真可谓是 AI 在日常生活中的小试牛刀，果断下载体验了一把。

为了测试 AI 的智商，我很腹黑地上传了两张跟花卉没有关系的照片，一张是用粘土捏的圣诞花环，另一张是一个日本买的手办娃娃。

AI 非常自信地给出了判断，分别是蟹爪兰和蝴蝶兰！

你是不是觉得很好笑？

这个程序可能对花卉的图像识别效果很好，但是你发给她一张粘土照片或者手办照片，她依然会给出一个花卉的结果。

选择合适的数据是正确诊断的第一步，AI 输在了起跑线上。

AI 无法诊断「没见过」的疾病

AI 的诊断效果除了算法的影响，很大程度上还取决于用于 training 的数据。

我们暂且抛开大量 training 素材的可及性和伦理问题，相信这些问题的解决只是时间问题。

最重要的一点是 AI 无法诊断 training 中不包含的疾病类型，或者新的关联类型。

比如，发病率比较低的疾病，这些疾病的档案本来就很少，training 素材中可能没有包含或者只有少数几例。那么，AI 在实际诊断中就会发生误判。

再比如，有些病征可能过去一直只跟疾病 A 相关，但最近出现这些病征跟疾病 B 相关的情况越来越多。这时，目前的 AI 依然只会按照过去学习到的规则来诊断。

AI 也许速度很快效率很高，但她非常死板，这绝不是一名优秀的医生应该具备的素质。

不过，随着技术发展和资本推动，中国的医疗 AI 研究必然会打破目前各种疾病诊断领域独自开发的现状，这也让 AI 识别和选择正确的数据成为可能。

停留在表面的 AI 诊断

AI 的诊断原理跟医生有本质区别，AI 经常只是停留在表面，而医生能够深入本质。

医生的诊断并不是基于表面的图形，图形只是疾病的一种表象。但是，图像识别 AI 是完完全全地基于这些表象，因为她没有办法理性思考。

真实的医疗过程中存在大量表面上很相似，但实质上大相径庭的案例，这就超出了 AI 的能力范围。但可怕的是 AI 并不知道自己的能力边界，她还是会机械地按照程序员写好的代码进行计算，并给出错误的结果。

在 Bejnordi et al.的研究中我们看到，人类医生只要给予合理的时间，诊断的准确率和 AI 不相上下，但在医疗资源紧张、医生负荷沉重的情况下（比如 2 小时鉴定 129 张病理切片）会有更高比例的病例被误判为阴性，但不管时间是否充裕，人类医生诊断的假阳性率始终是非常低的。而 AI 正好相反，虽然诊断的准确率比较理想，但假阳性率较高，并且算法容许更多假阳性时灵敏度更好^[1]。在 Litjens et al.的报道中，深度学习算法的灵敏度达到了 100%，但假阳性率也高达 40% ^[5]。

随便举个例子，比如，我上传给花卉识别 AI 一张长筒花的照片，她其实并不认识长筒花，但因为长筒花跟非洲凌霄的花有些类似，所以她很自信地给出非洲凌霄的诊断结果。

长筒花被错误地识别成非洲凌霄

真的放心让专注表象十年的 AI 给你看病吗？

AI 无法根据实际调整诊疗方案

AI 在可以标准化或量化的数据处理中强于人类，但医生看病并不仅仅是诊断这么简单，医生的目的是要把病人治好。

为了达到这个目的，医生需要根据患者病情的发展，并发症的情况，身体情况，经济条件给出最优的治疗方案，这个复杂的过程需要的不仅是专业知识，还有经验和智慧 ^[6]。

你也许会说 Alpha go 和 Zero 不是很有智慧吗？那是因为围棋只是一个游戏，规则清晰，地盘有限，计算机可以左右手互搏赚取经验。在真实世界里，医疗行业日新月异，影响医疗结果的因素众多，受到新技术、新政策、疾病的分布变化等等因素的影响，有那么多「小白鼠」供 AI 练习吗？我们甚至没有一个能够模拟人体在各种疾病和治疗下会有如何改变的模拟器。

AI 能否在实际医疗场景中的提高医疗质量，还有待更严谨的前瞻性研究的证实。

AI 无法自己发现新的方法

最后一点也最为重要：医学不是一成不变的科学，医学每天都在进步，每天都在面临新的挑战，诊断标准与诊疗方案也需要与时俱进。而 AI 不能自己给自己建立新的诊断标准，更不能从新的病例中发现新的方法。

AI 的强项在于数据的收集和分析，在有足够多的医疗样本后，AI 也许会对诊疗指南有自己的看法。

但是每个医生都知道，新术式、新治疗方案、新药使用和尝试，甚至是面对新的疾病，都是临床实际工作中的一部分。在目前，推进医学进步的重任唯有人类医生可以担当。

结束语

AI，愿你在这盛世能成为一名合格的仆从，帮助医生完成一些简单重复的劳动，让我们的医生不再那么辛苦，可以有更多的时间更充沛的精力来做重要的事情、帮助更多的患者！（责任编辑：刘冬宸）

本文作者王婧，剑桥大学博士后，丁香园大数据部高级分析师。

参考文献：

1. Ehteshami Bejnordi B, Veta M, vanDiest PJ, et al; CAMELYON16 Consortium. Diagnostic assessment of deeplearning algorithms for detection of lymph node metastases in women with breastcancer. JAMA. 2017;318(22):2199-2210.

2. Esteva A, Kuprel B, Novoa RA, et al. Dermatologist-level classificationof skin cancer with deep neural networks. Nature. 2017;542(7639):115-118.

3. Gulshan V, Peng L, Coram M, et al. Development and validation of a deeplearning algorithm for detection of diabetic retinopathy in retinal fundusphotographs. JAMA.2016;316(22):2402-2410.

4.Golden JA. Deep Learning Algorithms for Detection of Lymph Node Metastases FromBreast Cancer. JAMA. 2017;318(22):2184-2186.

5. LitjensG, Sánchez CI, Timofeeva N, et al. Deep learning as a tool forincreased accuracy and efficiency of histopathological diagnosis. SciRep. 2016;6:26286.

6. ChenJH, Asch SM. Machine Learning and Prediction in Medicine - Beyond the Peak ofInflated Expectations. N Engl J Med. 2017 Jun 29;376(26):2507-2509.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。