打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
回归分析杂谈之一:医学统计常用回归方法概述
userphoto

2023.12.26 北京

关注

回归分析可以说是统计学中内容最丰富、应用最广泛的方法。众多回归的名称张口即来的就有一大片,线性回归、Logistic回归、Cox回归、Poission回归、Probit回归等等,可以一口气说30多种不带停顿的。

回归分析的思路和目的大都差不多,主要能做的事情是:

(1)探索危险因素。比如高血压的影响因素有哪些?血糖值的变化跟那些指标有关系?等等。

(2)定量分析不同因素对结果的影响大小。比如体重和血压都可能会影响血糖,哪个对血糖的影响更大一些呢?

(3)校正混杂因素。比如,想分析胃癌与幽门螺杆菌的关系,但是饮食因素可能是影响它们关系的混杂因素,需要进行校正,以得到胃癌与幽门螺杆菌的真实关系。

(4)预测。比如,知道了性别、年龄、BMI可能是影响高血压发生的因素,如果知道了一个人的性别=男,年龄=35,BMI=26,预测这个人发生高血压的概率有多大。

所有的回归方法可以认为是一个大家庭,但是家族成员实在太多,有时容易让人晕。为了让大家对众多回归有一个清醒的认识,本文对一些常见的回归分析方法做一下总结:

1,线性回归

线性回归是回归家族中的元老级人物,几乎是所有人学习回归方法最早接触,就算其它的回归你都没听说,最起码你一定要知道线性回归。

线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于t检验。如果只有一个自变量,且有三类或更多类,那这个回归就等同于方差分析。如果有2个自变量,一个是连续变量,一个是分类变量,那这个回归就等同于协方差分析。所以线性回归一定要认准一点,因变量一定要是连续变量。当然还有其它条件,比如独立性、线性、等方差性、正态性,这些说起来就话长了,而且在前面的几篇文章中我已经逐个介绍了,这里就不罗嗦了。

2,Logistic回归

与线性回归并称为为回归家族中的两大护法。应用范围一点不亚于线性回归,甚至有青出于蓝之势。在医学中,logistic回归的应用已经多于线性回归。

为什么医学中喜欢用logistic回归?因为logistic回归太好用了,而且太有实际意义了。利用logistic回归中的OR值,解释起来直接就可以说,如果具有某个危险因素,发病风险增加2.3倍,听起来多么地让人通俗易懂。比如,吸烟的人与不吸烟人相比,发生肺癌的风险是1.8倍,谁都能听懂什么意思(虽然仔细一想仍然不知道什么意思)。相比之下,线性回归就达不到这一效果。

而且,logistic回归在预测方面很有实际价值,可以直接说,如果一个人性别=男、年龄=40、吸烟、肥胖,这样一个人,发生肺癌的概率是67%。所有人都爱听这种解释。

logistic回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。

logistic回归有多种类型,根据结局的类型来分的话,由于分类变量有多种类型,因此logistic回归也有多种类型。起码可以分为二分类的logistic回归、多项无序logistic回归、有序logistic回归(又称为累积比数logit模型、比例优势模型)。

根据研究目的来分的话,logistic回归可以分为条件logistic回归和非条件logistic回归。条件logistic回归用于配对资料的分析,非条件logistic回归用于非配对资料的分析,也就是直接随机抽样的资料。

3,Poisson回归

poisson回归相比就不如前两种方法应用广泛了,但通常情况下,也可以排进五大高手之列。

poisson回归主要用于结局资料是计数资料的情况,与线性回归和logistic回归又不同。注意计数资料不同于连续资料,不要弄混。

比如咳嗽次数、哮喘发作次数,等等变量,这是计数资料,需要考虑poisson回归,不能用线性回归。

再比如,胃癌随访10年,发生例数,也可以用poisson回归。虽然听起来好像是logistic回归,比如1000人随访10年,发生了20例胃癌。结局分为发生和不发生,像是logistic回归要干的事情。但是logistic回归通常认为服从二项分布,而二项分布一般认为发生率不应该太低。poisson回归服从poisson分布,一般用于发生率特别低的情形。

不过实际中可能是因为logistic回归名气太大,以至于很多人不管三七二十一,只要是分类资料就用logistic回归,不管阳性率发生到底是低还是高。所以导致poisson回归名气始终不如logistic回归。

4,Cox回归

cox回归的因变量有些特殊,它主要用于生存数据的分析。生存,就意味着因变量必须同时有2个,一个代表状态(如是否存活、是否进展、是否发生疾病、是否出现不良事件等),必须是分类变量,一个代表时间(如死亡时间、进展时间、疾病发生时间、出现不良事件时间等),应该是连续变量。只有同时具有这两个变量,才能用cox回归分析。

cox回归主要用于生存资料的分析,生存资料至少有两个结局变量,一是死亡状态,是活着还是死亡?二是死亡时间,如果死亡,什么时间死亡?如果活着,从开始观察到结束时有多久了?所以有了这两个变量,就可以考虑用cox回归分析。

但是一定要有清醒认识,这里的死亡,并不是狭义的死亡,而是表示任意你关心的结局事件。比如分析疾病进展的风险,分析出院后再次入院的风险,等等。总之,只要有事件是否发生、以及事件发生的时间,就可以考虑cox回归。

cox回归在生存分析这一领域中,几乎是一统江湖,绝大多数生存分析的方法都难以与之抗衡,因为它简单易用,不像那些参数回归那么复杂,所以深得非统计学专业人士的青睐。

本文先简单介绍这几种,后面的一些回归方法陆续再介绍。敬请期待。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
常用回归分析方法
回归分析的各种变体【一览】
广义线性模型
多重线性回归、logistic回归与Cox回归的比较
【讲座】多因素分析方法在控制混杂因素中的应用
你分得清么?线性回归、logistic回归、COX回归!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服