打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
多因素回归探讨影响因素,推荐 “逐步回归法” 吗?
答案是:

不太推荐!


很多人在多因素回归时候,喜欢用逐步回归法挑选自变量。我今天要来纠正下,不要觉得这种方法值得使用!

这篇推文,是初学者构建回归模型的下篇。在上一篇推文中,我介绍了,初学者可以先单后多构建回归模型,讨论了单因素P值多大时候才被纳入多因素回归模型中。
回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?

我在之前文中说过,构建回归模型要“严进严纳”:严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别放在最终模型中来。

严进:合理的挑选自变量纳入多因回归模型
严纳:少留变量在最终模型,多淘汰一些变量出去。

怎么淘汰呢?今天我们就讨论一下,逐步回归法的应用

一般来说,根据严进严纳的原则,就是开展回归的自变量要少一些。在这种情况下,逐步回归法就发挥了重要作用。

逐步回归法一般分为三类
1)向前逐步:自变量从少到多放到模型中,寻找最少自变量,最佳的建模效果
2)向后逐步:自变量先全部放入回归模型,再逐步剔除冗余自变量,寻找最少自变量,最佳的建模效果
3)双向逐步:这类事向前向后的结合,在逐步增加变量时候,也在清洗在模型的自变量,寻找最少自变量个数,最佳建模效果。一般来说,双向逐步效率最高,最推荐。

由于逐步回归法在统计软件中很容易实现,所以现在大量的中文学术论文采用了逐步回归的方法开展自变量的筛选。

但是,医学Top期刊,内科学年鉴(Annals of Internal Medicine)的统计分析指南却指出:

Authors should avoid stepwise methods of model building, except for the narrow application of hypothesis generation for subsequent studies. Stepwise methods include forward, backward, or combined procedures for the inclusion and exclusion of variables in a statistical model based on predetermined P  value criteria. 这段英文翻译过来就是应该避免使用逐步回归方法进行多因素回归。

这又是咋回事呢?大家在使用的逐步回归法不建议用了?!我觉得倒也不是说逐步回归法就不好用,而是应该有选择的用。

一、为什么不太推荐逐步回归法?

回归分析在医学中扮演着两大类的作用,一个是探讨影响因素,另外一个是预测与分类。

我认为,如果回归用于构建预测模型,那么逐步回归法仍然是一种好方法。

如果是探讨影响因素,无论是控制混杂,还是探讨多影响因素,我不建议直接上马逐步回归方法。

最大的原因是,逐步回归方法是一种没有任何专业知识指导的数据驱动自变量筛选方法。通俗来说,它就是胡搞,为建模而建模。

实际上我们建一个模型来探讨影响因素时吗,
(1)所建立的回归模型成功构建,不能因为自变量过多而导致失败;
(2)所建立回归模型不需要所有自变量都有统计学意义,因为这不是预测模型;
(3)所建立回归模型中,关键指标无论是否具有统计学意义,都应该在模型中;
(4)所建立的模型,应该认真中介变量带来的影响,可能要排除中介变量。;
(5)所建模型尽量避免多重共线性;

在上述5点中,(1)、(5)是逐步回归法最大的存在理由,但是其它几点起不到作用。

案例分析

若研究者对一组研究对象开展队列研究,基线测量胰岛素、基线血糖水平、随访病人是否患有糖尿病,2年后监测其血糖水平,探讨随访血糖的影响因素,其中,基线胰岛素是我们想要分析的关键自变量。

如果我们对三个自变量(胰岛素、基线血糖、糖尿病)采用逐步回归的方法,会怎么样?

第二个模型是最终模型。我们发现胰岛素这个变量没有了,不在模型中了!那么该结果能够说明胰岛素对随访血糖没有影响吗?非但没有胰岛素,而且连这个变量都不存在了!那你还如何汇报结果?真的没有影响吗?

接下来,如果我们采用全部自变量纳入的方法,把基线血糖和糖尿病放在一起分析。多因素回归情况下,胰岛素与随访血糖的线性关系也不存在(b=-0.008,P=0.872)而其他变量也并未受到太大的干扰!

所以,在自变量不多的时候,逐步回归法很多时候不能给其它变量带来额外收益,而且模型丢失了关键变量(哪怕没有意义,它也应该出现在模型,否则我们都没法汇报了)。

那,逐步回归法有啥优势?

(1)有人说,逐步回归法可以结局冗余的自变量

其实,这不是好的解决办法。冗余的自变量有两套解决方案。第一,我们构建回归时候,在考虑哪些可能的影响因素时,就应该慎重考虑,不是所有阿狗阿猫都作为候选自变量开展回归分析,与结局变量“拉郎配”。

只有与结局变量可能存在着因果关系的变量,才推荐开展回归分析。这一点,是需要从专业上去考虑的。

第二,在统计分析的时候,若自变量个数很多,在严进的时候就卡关,不随便纳入自变量进入最终的回归模型。一般单因素分析P值较小者纳入回归模型。关于这一点,上一篇推文有所称述。

回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?

(2)有人说,逐步回归法可以处理多重共线性

很多时候,由于自变量存在着高度相关。这个时候,连教科书都推荐试试逐步回归法呀!

这种做法其实很要命!这是一种完全无视数据特点,强行胡乱进行自变量筛选的一种方法。

为什么有多重共线性?多重共线性往往由于变量之间存在着关联性,这种关联性有几种情况:
第一,这个变量是混杂变量,由于混杂变量与自变量相关,所以造成部分共线性
第二,这个变量是中介变量,中介变量也会造成自变量相关
第三,变量是同个东西。比如年龄这一定量变量和根据年龄进行分组产生年龄的等级变量,那么原先的年龄定量数据和等级变量的年龄就是高度相关,如果它们一同纳入模型,就会造成共线性
第四,一个事物的两个属性,比如身高与坐高,相关高度相关,如果,如果他们一同纳入模型,就会造成共线性

实际上,除了第一点之外,我们在处理多重共线性时,典型的方法是排除造成多重共线性的变量。比如身高坐高在回归分析应该2选1,定量年龄和分类年龄应该2选1,中介变量不能纳入模型。

逐步回归法解决不了真正复杂的多重共线性,但会给你一种假象:我用了逐步回归法,所以我的结果很可靠!实际上,当你忽视自变量之间的关系属性而直接应用逐步回归法, 统计分析结果结果不太会好看。

所以这么说来,逐步回归法在回归模型探讨影响因素的过程中,都不是主要的策略。
(1)所建立的回归模型要能够成功构建,不能因为自变量过多而导致失败(逐步法不是主要策略)
(2)所建立回归模型不需要所有自变量都有统计学意义,因为这不是预测模型(不需要逐步法)
(3)所建立回归模型中,关键指标无论是否具有统计学意义,都应该在模型中(不应该逐步法)。
(4)所建立的模型,应该认真中介变量带来的影响,可能要排除中介变量(应该人为剔除中介变量,或者采用中介分析)。
(5)所建模型尽量避免多重共线性(更推荐人为剔除造成多重共线性的变量)。

总结来说,我们构建模型时候,要避免随意纳入变量,随意用逐步回归法淘汰变量。统计软件只是辅助我们计算结果,必须执有正确的统计假设、统计思路、才能科学地构建回归模型。否则,只会Garbage in, Garbage out!

二、严进严纳的三种策略

现在结合上一篇推文:回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗? 我来简单介绍下,如何利用严进严纳的原则,构建回归模型。

严进:合理的挑选自变量纳入多因素回归模型
严纳:少留变量在最终模型,多淘汰一些变量出去。

那么严进严纳结合起来怎么开展自变量筛选呢?有以下策略可供参考:

①多因素一次性纳入所有变量---全变量纳入法,也不淘汰。这种情况是自变量不多、样本量足够大所采取的的策略。此时,回归分析不惧怕自变量多而模型构建失败。

在大部分情况下,可以只“严进”,而不采用逐步回归法。该策略是较多自变量场合下使用的策略(比如10个自变量以上)。“严进的基本措施是,先做单因素分析,然后将单因素分析P值较小者挑选出来开展多因素回归。一般情况下,P值小于0.2或者小于0.05的自变量个数是不多的,因此不需要接下来开展逐步回归法进行“严纳”的步骤。

③严进严纳。如果您的研究自变量是非常多,五六十个甚至上百个,首先必须执行“严进一般推荐,P值较小的纳入,即单因素回归P值较小的自变量纳入分析;但可能P值较小的自变量也太多,那么可以考虑采用逐步回归法进行“严纳”这种情况是自变量实在太多了,“严纳”方法会有误伤,但是也能接受。不过这种情况发生的可能性太小,因为我不赞成把过多的自变量纳入回归开展分析,成百个自自变量的回归分析,这种回归模型也是个“Garbage”

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
6.【免费】精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
特别提醒:上述资源每天限分享和下载一个。

培训通告

2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看:
来参加吧,通俗易懂的统计培训课:R、Meta、重复测量以及量表分析


如果您觉得文章不错,
为我们打“call”,
点击“分享”
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
多因素回归不能用逐步回归法?那么我该怎么办?
经典推荐 | 逐步回归分析法及其应用
线性回归思路梳理
互助问答第140期:关于多重共线性的问题
实验2
多重共线性问题及解决方法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服