打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
我们做的回归分析,到底是多元回归还是多变量回归?

回归分析,包括线性回归、logistic回归等,当自变量多个的时候,叫多元回归还是多因素回归或者多变量回归?

我想很多发表的文章,甚至写的一些教科书,当自变量多个的时候,这个回归会被称为多元回归!

甚至SPSS统计软件,也会出现多元回归的概念

最近,我们翻译了Bertha Hidalgo等人在《美国公共卫生杂志》的一篇文章:多元回归还是多变量回归“Multivariate or Multivariable Regression”,来帮助大家理解,我们做得到底是不是多元回归。

本文包括两部分,第一部分是翻译原文,第二分部是郑老师合作团队的理解。

1.原文翻译

大多数回归模型是根据结局变量的类型来建模的:线性回归的结局变量是连续性的,logistic回归的结局变量是二分类的,生存分析的结局变量则是时间-事件。从统计学上讲,多元 (multivariate) 分析是指具有2个及以上因变量或结局变量的统计模型1,多变量 (multivariable)分析是指具有多个自变量和一个因变量的统计模型2

对于多变量模型,其模型方程的右侧有多个自变量。这类统计模型可以用来尝试评估一些变量之间的关系;或者在调整了潜在混杂因素后,评估一个变量的独立关系/影响。

一个简单线性回归模型有一个连续性的因变量和一个预测因子,而一个多重或多变量线性回归模型有一个连续的因变量和多个预测因子(连续的或分类的)

一个简单的线性回归模型可以写成如下的形式:

(1) y = α + β1x1+ ε

相应地,一个多变量或多重线性回归模型可以写成如下的形式:

(2) y = α + β1x1+ β2x2 + … + βkxk + ε

其中, y是连续性因变量,x是单变量回归模型中的一个预测因子,x1x2…xk是多变量模型中的预测因子。

与线性模型一样,logistic和比例风险回归模型可以是单变量的或多变量的。每个模型的结构中都有一个因变量以及一个或多个独立变量/预测变量。

相比而言,多元模型通常是指使用来自纵向研究数据建立的模型,其因变量是在多个时间点对同一个体进行测量所得(重复测量);或者,是使用嵌套/聚类数据所建立的模型,其每个类/层中有多个个体。多元线性回归模型可以写成如下的形式:

(3) Yn×p= Xn×(k+1) β(k+1)×p + ε

该模型评估了多重因变量(Ys)—多个结局的测量和一组预测变量(Xs)之间的关系。

目前多元统计与多变量统计两个概念误用情况如何?

我们在PubMed上使用关键词“multivariate”来检索201012月至201111月在《美国公共卫生杂志》(American Journal of Public Health)上发表的文章。我们确定了30篇文章,其作者均在文中讲到使用了多元统计方法。我们单独地对每一篇文章进行回顾,以评估被定义为“多元分析”的分析方法的类型。

30篇文章中,5(17%)使用了多元模型(如我们在这里定义的),其中有4个来自纵向数据,1个来自嵌套数据;其余25(83%)涉及多变量回归分析。Logistic (21/30, 70%)是使用最多的分析类型,其次是线性回归(3/30, 10%)由此可见,超过80%的文章在我们看来,误用了多元统计这一词组!有趣的是30篇文章中有2(7%)存在多元和多变量互换使用的情况。这进一步说明了在使用这两个术语时用词规范和统一的必要性。

虽然有些人可能会争辩,多元和多变量的互换使用只是语义上的,但我们相信区分这两个术语对公共卫生领域来说是重要的。一般而言,公共卫生研究中使用的模型应描述为单变量模型或多变量模型,以表明预测因子的数量;描述为线性模型、logistic模型、多元模型或比例模型,以表明因变量的类型(如连续性、二分类、重复测量、事件-时间)

我们的综述显示,有必要更准确地应用和报告多变量分析方法。而且,这一问题并非公共卫生领域的研究所特有,其他研究领域(如医学、心理学、政治学)也有同样的问题3。因此,我们希望将来在公共卫生领域的文献中看到一个更加清晰的区别,即区别使用“multivariate”与“multivariable”来描述其所使用的统计分析方法。这是一个重要的区别,不仅是为了避免读者之间的混淆,也是为了更准确地告知下一代正在将他们的工作建立在已发表文献上的公共卫生研究人员。

2. 基于文章,我们的理解


1.原文翻

面的这篇翻译稿总的意思是:多元回归,指的是因变量是多个;多变量回归,指的是自变量多个。

因此,平时当只有一个因变量的时候,说成多元回归,是不合适的(至少在医学领域),一般建议叫多变量回归,或者我们中文翻译更多的叫做多重回归,或者通俗来说是多因素回归,如多重线性回归、多重logistic回归。

而SPSS统计软件的多元logistic回归、二元logistic回归是怎么回事呢?这个翻译错的离谱,它既不是多元回归,也不是多重回归。SPSS软件的的二元logistic回归,指的是因变量是二分类变量的logistic回归,多元logistic回归指的是因变量是多分类变量的logistic回归!


本文作者王威,编辑郑老师

作者简介:王威:流行病学与卫生统计学硕士,本公众号合作伙伴,丁香园“统计与作图”版主,现就职于江苏省中医院(南京中医药大学附属医院)GCP中心,管理Ⅱ-Ⅳ期药物/器械临床试验项目(中药新药临床试验2项,国际多中心临床试验1项),并为院内医、药、技、护的科研提供研究设计和统计学支持;研究方向为临床数据的分析与可视化,在真实世界研究、非独立性数据的统计分析、基于多组学数据的预测模型等方面具有丰富的经验。

如果有需要查看原文者,不放发送,发送关键词“文献阅读”至公众号,无需分享推文,即可获得文献的下载地址。

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
5.BMJ子刊教程“如何利用R语言进行meta分析”:附全套R代码
6.【免费】精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
7.【绝对精品】这套954张PPT的医学统计学教程,现在公开赠送!
特别提醒:上述资源每天限分享和下载一个。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
回归中的多变量、多因素、多重、多元有什么区别?
二分类logistic回归,更新几个常见问题的解决方法
【典藏】Logistic 回归:从入门到进阶
医学研究中的Logistic回归分析及R实现
logistic模型(logit和logistic模型的区别?)
一文搞懂logistic回归分析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服