上期内容中,我们介绍了筛选预测变量的两种方法(第3期.变量太多啦,怎么选?)。但是大家知道,在广义线性模型(如Cox风险比例模型和Logistic回归)中,对预测变量的数量有什么样的要求吗?以及当变量的数目庞大时,如何缩小自己的选择范围呢?我们将在这期讲解,继续看下去吧!
为了避免这个情况,在广义线性模型中,我们对预测变量的数量有一定的限制:预测变量的数目不超过“事件数目”/10。例如,用logistic回归预测患者是否出现肾损伤,数据集中出现肾损伤者n人,未出现肾损伤者m人,这个情况下变量的数量应不超过n和m中小的那个除以10,即min/(n,m);若使用Cox风险比例模型预测无复发生存率,变量的数量应当不超过复发数/10。
二、Bonferroni矫正
在现实中,如果仅使用临床上的指标,结合我们上期的内容,往往是可以达到要求的。但现在越来越多的研究选择用组学数据建模,这涉及数量庞大的基因,我们如何缩小范围呢,Bonferroni矫正会是一个好办法。其原理为:在同一数据集上同时检验n个相互独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n;例如,对1000个基因进行单因素回归分析,探究它们对预后的关系,这便是做了1000次独立的假设检验,将p设置为0.05/1000=5*10-6,可以严格控制假阳性的出现,为我们后续纳入建模提供更有力的支撑。
这篇JCO的文章就采用Bonferroni矫正,在大量基因突变中,筛选出了10个与预后密切相关的基因用于建模。
那么这就是本期的全部内容啦,你学会了吗?大家对于推送内容有任何问题或建议可以在公众号菜单栏“更多--读者的话” 栏目中提出,我们会尽快回复!
参考文献:
写在最后
“观科研”(点击进一步了解我们吧)是由一群北京协和医学院(清华大学医学部)的博士开创的公众号,初心是让医学科研有迹可循,帮助一线的医学科研人员更快地成长,希望大家支持与关注!
联系客服