临床预测模型文章解读第四期：利用公共数据库 RF随机森林模型，预测甲状腺癌患者发生骨转移的风险

临床预测模型的建模效果好坏与数据质量直接相关，但如果你手上没有高质量的数据更没有时间去搜集数据该怎么办，利用已有的公共数据就是一个很好的解决方案。

本篇文章带来的是一篇利用SEER公共数据进行机器学习建模的文章，这篇文章是2020年发表在Cancer Medicine杂志（IF=4.45）上的文章《Machine learning for the prediction of bone metastasis in patients with newly diagnosed thyroid cancer》，研究了利用机器学习模型预测新诊断甲状腺癌患者发生骨转移的风险，下面就来看看这篇文章到底是怎么分析的。

（大家可以在公众号号中的“论文助手”->“IF查与投”中查询期刊的详细信息）

摘要

目的：该研究旨在建立一种机器学习预测模型，可用于预测新诊断甲状腺癌(TC)患者发生骨转移(BM)的风险。

方法：对2010-2016年监测、流行病学和生存结局数据库中的人口统计变量和临床病理变量进行回顾性分析。在此基础上，我们开发了一个基于机器学习的随机森林(RF)算法模型。利用AUC、准确率、召回率和特异性来评估和比较RF模型和其他模型的预测性能。

结果：研究共纳入17138例患者，其中166例（0.97%）发生了骨转移。重要度排序发现组织学分级、甲状腺癌T阶段、种族、性别、年龄和甲状腺癌N阶段是BM的重要预测特征。RF模型比其他模型具有更好的预测性能（AUC：0.917，精度：0.904，召回率：0.833，特异性：0.905）。

结论：本研究建立的RF模型可准确预测TC患者发生BM的风险，为临床医生提供更个性化的临床决策建议。

材料和方法

01 研究人群

该研究来自于监测、流行病学和生存结局的(SEER)数据库。从“SEER 18 Regs Research Data + Hurricane Katrina Impacted Louisiana Cases (1973–2016)”中下载患者数据。这项研究仅限于2010年至2016年期间，因为关于该感兴趣部位转移的信息只能在2010年及以后获得。排除标准如下：

（1）T期、N期、种族、组织学分级、保险状况、婚姻状况、骨转移状态等未知信息；

（2）TC不是第一个肿瘤。

患者选择程序如下图所示，经筛选最终剩余的研究样本量为17138例。

02 模型构建

研究中的所有统计分析都是使用R（3.6.8版）和Python（3.7版）所有变量进行皮尔逊相关性检验，所有患者随机分为训练组7：3和试验组，并利用卡方测试方法分析了训练集和测试集之间的差异。

利用训练集建立随机森林(RF)模型和多元逻辑回归(LR)模型，并应用测试集进行评估。RF中的树数为ntree=500。对于多元LR，我们对变量筛选来建立模型。应用AUC、准确性、召回率和特异性，比较了两种模型的预测能力。

03 模型优化

调整了RF模型的参数，将ntree值从1迭代到500，选择最佳的ntree值(ntree=7)并使用提取的重要特征进一步进行模型构建，模型在训练集中进行了10倍交叉验证，并在测试集中进行了验证。这减少了冗余特性对模型的影响，而更少的特性可以提高的临床易用性。

结果

1.人口学特征

本研究共纳入了17,138名TC患者。在这些患者中，166例发生骨转移（0.97%），16,972例在初次诊断时无骨转移（99.03%）。所有患者以7：3的比例完全随机分为训练组（n=11,997）和测试组（n=5141）。

2.模型分析与变量对预测的影响

测试了所有变量的皮尔逊相关性，相关热图显示它们之间没有显著的相关，表明这些变量是相互独立的（说明可以进一步进行Logistic回归分析）。

利用多元Logistic回归筛选重要特征并计算每个变量的OR值，最终七个特征被确定为独立的风险因素：性别（p=0.015）、年龄（p=0.011）、种族（p<0.001）、等级（p=0.029）、组织学（p=0.043）、T阶段（p<0.001）和N阶段（p=0.005）。

利用RF模型进行变量重要度排序，最重要的三个变量分别是等级、T阶段以及组织学特征，前7个重要特征基本与LR模型一致。

3.模型表现

使用AUC、准确度评分、召回率和特异性来评估和比较模型的性能。初始随机森林（RF1）模型优于初始逻辑回归（LR1）模型（AUC：0.908，精度：0.877，灵敏度为0.796，特异性为0.878 vs. AUC：0.791，精度为0.743，灵敏度为0.741，特异性为0.742）。

之后，我们调整了RF模型的参数，并将ntree值从1迭代到500，以选择具有最佳预测性能的ntree值(ntree=7)。

使用前七个显著特征的改进的随机森林（RF2）模型在所有机器学习模型中具有最好的预测性能（AUC：0.917，精度：0.904，灵敏度：0.833，特异性：0.905）。它在10倍交叉验证中也取得了优异的性能（平均AUC=0.916）。

讨论

本研究应用基于机器学习的随机森林算法和SEER数据来预测TC患者的BM。它扩展了最近其他研究人员经常使用的基于LR的nomogram（列线图）模型。然而，这项研究仍然有几个局限性。

首先，该模型基于机器学习和深度学习算法，因此，对该模型筛选出的重要特征的临床解释可能存在一些困难。

其次，这是一项基于北美人口的研究，因此在人口适用性方面可能存在差距，因此有必要在未来的研究中包括更广泛的人口。

最后，SEER数据库记录了初始诊断时的信息，这意味着随后的治疗数据缺失，我们无法将其纳入TC患者的BM预测分析中。

点评

该研究利用机器学习算法构建了甲状腺癌患者发生骨转移风险的预测模型，利用随机森林进行变量筛选，并进行模型预测效能的对比，找出最优的机器学习模型--随机森林模型，最优模型AUC为0.917。

该研究通过SEER数据库获取相关的数据，如果没有数据的同学可以尝试一下利用SEER、MIMIC等公共数据库进行数据的搜索，之前的推文中有介绍过一些公共数据库，感兴趣的可以回顾一下。

该研究也有一些不足之处，样本中发生骨转移的患者比例太低，只有166例发生骨转移（0.97%），因此建模样本不均衡情况严重，应该采用过采样或者欠采样的方式进行不均衡样本的处理，同时对于不均衡的样本应该采用F1-score进行预测模型的评价。

从作者给出的最后一张预测结果表也可以看出，预测的数据中假阳性的样本太多，也反应了样本不均衡造成的影响。

参考文献：

Wen〤ai Liu, Zhi㏎iang Li, Zhi￤en Luo, et al. Machine learning for the prediction of bone metastasis in patients with newly diagnosed thyroid cancer[J]. Cancer Medicine, 2021(9).

平台实操

我们极智分析平台可以实现分类多模型综合分析：多模型比较常用于机器学习相关的SCI文章中，通过多模型的构建，探索研究采用哪种机器学习模型更为合适。

点击智能AI分析<分类多模型综合分析，分析结果会对每个模型的训练过程进行展示，并最终展示交训练集叉验证的AUC森林图、以及验证集的ROC曲线。下图是我们极智分析平台的分析结果展示。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题，同时，为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧！

点击“阅读全文”参加有奖问卷活动，内含超大福利，不要错过哦！

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。