打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
队列研究的基本统计策略 | 14天学会医学统计与SPSS、R语言公益课(D22)
userphoto

2023.06.19 广东

关注



1



队列研究基本分析策略

如何分析队列研究的数据?

分析队列研究数据并不太难,也就是比较不同人群(暴露组和对照组)的结局差异性。比如,高血压组和正常组,随访2年后生命质量得分的差异性。得分是定量数据,两组定量数据的比较,应采用t检验或者秩和检验。

又比如,高血压组和正常组,随访5年后脑卒中的发病率的差异性。用什么方法?两组率的比较用卡方检验!

因此,t检验、卡方、秩和、方差分析都能够用于队列研究暴露组和对照组的差异性。

不过,队列研究典型的特点是,人群分组是自然而成,暴露组人群和对照组人群往往的基本特征(一般称之为“基线”特征)是不同的。比如,高血压组很可能平均年龄较正常组大。如果随访5年后,脑中风的发病率存在着差异。这种情况下,能否说明差异是因为高血压造成的,还是因为年龄结构不同带来的呢?

高血压组和非高血压组组间分组不均衡,则不具有可比性。

没有可比性,哪能探讨因果关联性?因此,t检验、卡方、秩和、方差分析能分析人群的差异性,一般能分析人群的差异性,不能肯定说说明暴露因素与结局存在着因果关联性。

怎么办?如何更科学地分析两者的因果关系?一般的方法是采用多因素回归的方法排除其它非暴露因素(比如年龄)的干扰。另外,在医学项目中,很多时候我们希望探讨影响结局的多个因素,那么多因素回归分析显然也是最好的方法之一。

因此,队列研究不仅需要基本统计学方法,也需要高级回归方法加持。


2



队列研究基本分析步骤

队列研究基本统计分析步骤包括以下3步:

第1步,统计描述。总体描述人群的特征、分组情况、分组人数、随访时间、失访情况。

第2步,初步分析暴露因素与结局的关联性。根据结局的特征,暴露因素与结局的关联性,一般常用的条件与方法如下:

从上表可以得知,简单关联性方法包括两类,一类是基础统计学方法--差异性比较方法(关联性方法1),另外一类则是单因素回归分析,如单因素线性回归、单因素Logistic回归、单因素Cox回归(关联性方法2);两类方法结果基本一致,差异即相关(该内容在day19 已有介绍)

此外,三类不同的结局对应是三类完全不同的方法。其中LogRank和Cox回归分析的方法,还没有获得系统的介绍(我将在今后课程进行详细阐述)。

效应值方面,OR值、RR值和HR值堪称三剑客。其中,OR值已在之前篇章中详细阐述;HR是生存分析关键效应值,它将与Cox回归同时亮相;RR值应该是医学研究最重要的指标,队列研究能够计算出RR值。本文稍后重点介绍RR值。

第3步,多因素回归探讨一个或者多个暴露因素对结局的影响。最后,主流方法是借助回归分析排除干扰,研究暴露因素的影响及及影响程度。常见的的方法如下:

同样,不同的结局有不同的回归分析方法。利用线性回归探讨定量结局的影响因素,利用logistic回归探讨2分类结局的影响因素,采用Cox回归探讨生存结局(双结局资料)。

不过,Logistic只能计算OR值,无法计算非常重要指标:队列研究还有另外两种分析分类结局的方法:Poisson回归与log-binomial回归。最近几年它们是队列研究重要的统计学方法,并且非常重要的是可以计算RR值,大家可以关注下。

队列研究与RR值


这一部分回答几个重要问题:什么是RR值?为什么它很重要,甚至比OR值更重要。


1



RR的概念与计算

RR值是医学研究最重要的效应值指标,没有之一。

RR值,全称是相对危险度(Relative Risk),也就是暴露组相对对照组,结局阳性事件发生的风险程度,用于描述暴露因素与终点结局事件关联。


它的算法是,暴露组阳性率与非暴露组阳性率率的比值。令a/m1=P1或者Pe,把c/m0=P0或者Pc,则
RR大于1,说明暴露组相比对照组容易发生阳性事件,反之则说明暴露组不容易发生阳性事件。无论大于1还是小于1,说明暴露因素与结局有关。

RR值大于1,提示暴露是阳性事件发生的促进因素;
RR值小于1,提示暴露是阳性事件发生的阻碍因素;
RR值等于1,提示暴露对阳性事件发生无影响

RR值,是暴露组相对对照组,发生阳性事件的概率的倍数。

比如,吸烟与肺癌发病关系的队列研究。

计算RR值如下:

式中,pe为吸烟组组的发病率, po为不吸烟组的发病率。RR13.5表示吸烟者患肺癌的概率(或者风险)为不吸烟者的13.5倍,比不吸烟者高12.5倍。


2



RR值需要假设检验

RR值是统计量,是根据样本得到的数据。它必须接受假设检验,论证总体上RR值是否等于1。由于RR是是基于两个率(四格表资料)得到的效应值,假设检验采用的是卡方检验。

SPSS软件卡方检验不仅可以计算P值,同时也可以计算RR值。例如吸烟的案例卡方检验和RR值的计算:

除了SPSS,数据分析可使用郑老师研制的工具

——在线智能医学数据分析平台

www.medsta.cn

(电脑浏览器打开)

统计分析结果输出更快捷、更规范

卡方检验结果显示,P<0.001说明暴露组和对照组肺癌发生率存在着统计学差异,也说明RR值总体上不等于1。


计算RR值和95%CI 结果如下:RR=13.5,95%CI: 5.41-33.71。RR值置信区间不包括1,也说明RR总体不等于1。


3



RR值为什么这么重要,比OR值还重要

医学研究中,RR值是最重要的效应指标。主要原因有2点,第一,医学研究最常见的结局指标是分类结局而非定量结局,分类结局的效应指标一般是RR值或者OR值;第二,RR值与OR相比,它能够直接反映暴露因素相对对照,提升阳性事件的发生概率的倍数。比如,RR13.5表示吸烟者患肺癌的风险为不吸烟者的13.5倍,风险提升12.5倍。这一理解无论是临床应用还是学术研究都非常容易接受。OR值,不能直接反映风险提升的倍数,它的结果与RR值相似,但不等于RR值。所以,本系列教材在介绍病例对照研究时(病例对照研究的基本统计分析策略),一再强调,OR值结果汇报不能说明风险增加的倍数,只能是大致、约等于。


因此,RR值是很多临床研究想办法求得的一个效应值


4



logistic回归只能计算OR值,怎么办?

logistic回归是队列研究最重要最常见的方法,但是无法计算RR值,这不是意味着logistic回归方法就不适合队列研究?

不是的。

虽然Logistic回归分析得不到RR值,但是,第一,由于OR值和RR值一般比较接近,第二,OR值和RR值假设检验的结果一致,OR值具有统计学意义,则RR值也具有统计学意义,第三,Logistic方法软件操作更简单,因此我们经常使用Logistic回归计算OR来研究队列研究。

特别是:对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于P<<1,OR可作为RR的近似值估计:
所以,logistic回归常用于流行病学调查资料,当它得到某一因素的回归系数估计值后,就可得到不同水平下相对危险度的近似估计值。
于医学研究,用于评价阳性事件发生的相对概率。
   本文更多疑问,请发送关键词5540到本公众号,了解更多答疑

案例分析


1



案例

这一篇推文,我顺手找到的是一篇英文文章,来自于《Arthritis Care & Research 》杂志,题目是:社区队列中脂肪成分和脂肪因子与足痛的关联。

该文章发表于2016年,诸位在文末“阅读原文”查看,文章写得比较全面,大家花点时间看一看,学一学。


2



统计策略

该研究是一项基于社区的队列研究,人群来自澳大利亚某个地区年龄≥50岁者,共1462人。

研究的暴露因素是脂肪有关成分的含量、脂肪因子水平,包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素-6(IL-6)等

研究结局是随访期间是否发生足痛:“在过去的一个月中,大多数日子里您的双脚有没有疼痛,疼痛或僵硬?足痛分为两种情况:Prevalent foot pain和Future foot pain foot pain,具体定义可以查看原文。

由于是队列研究,统计分析策略一般就是包括本文所列的3步:统计描述、简单关联性分析、多因素回归分析。


3



具体分析过程与结果

1. 研究对象基本特征描述:给出各个人群的特征,均数、率,并且提供了95%CI,诚意满满。

2. 简单关联性分析

由于本研究暴露因素诸多,作者针对不同的指标,开展不同的分析。

针对定量数据形式存在的暴露因素,包括脂肪因子、脂肪成分,采用差异性的方法初步分析,探讨暴露因素与结局的关系;针对分类变量,比如性别、疾病、行为采用单因素回归的方法进行分析。无论差异性方法或者单因素回归,都是简单关联性分析。差异即相关!

第一,对于定量的暴露因素,采用秩和检验分析结局与各因素的关联。

这里特别提醒:一般情况下,队列研究是在简单关联性分析中,是按照暴露因素分组而非结局分组,然后计算暴露组和对照组的发生率(这与病例对照研究研究不同,病例对照研究按照结局分为病例组和对照组);

但上表却是按照结局分组进行比较,比如比较No foot pain和 Foot pain在IL-6的差异性,采用的是秩和检验的方法。为什么呢?因为暴露因素IL-6是连续型定量数据,无法进分组,所以就按照结局进行分组了。

第二,针对分类的因素,作者采用单因素logistic回归分析,并计算OR值(实际上,卡方检验结果也可以,单因素logistic回归和卡方检验结果一致)。

3. 多因素研究,探讨影响因素
作者把差异性比较和单因素logistic回归分析P<0.20者全部拿来分别针对结局Prevalent foot pain和Future foot pain foot pain开展多因素的logistic回归。

Prevalent foot pain结局方面,脂肪变量FMI和其它因素是重要影响因素。

Future foot pain foot pain结局方面脂肪变量FMI和其它因素是影响因素。

注意点


1.队列研究样本量如何计算?
郑老师课程团队针对零基础者开发出了“浙中大样本量计算器”,包括了队列研究计算样本量,您可以下载。
这款高校老师制作的工具,手把手教你快速计算样本量!免费下载

2. 病例对照研究与队列研究统计方法具有相似性
病例对照研究在统计分析策略上,主要分为统计描述、简单关联性比较,多因素logistic回归;队列研究,也包括统计描述、简单关联性比较,多因素logistic回归;在简单关联性方法中,可以采用差异性方法,也可以采用单因素回归分析的方法。

最大的区别在于,回归分析方面,病例对照研究只能采用logistic回归,而队列研究可以考虑线性、logistic、COX回归、Poisson回归等,不同的结局采用不同的统计学方法。

3. 一个队列研究只能探讨一个暴露因素吗?
所有流行病学教材说,病例对照研究可以探讨同时探讨多个暴露因素,队列研究一次只探讨一个暴露因素。这往往给人很大的误解:“队列研究就是鸡肋,辛辛苦苦做了几年,我只能研究一个暴露因素?”

狭义上,教材说的没有错,一个队列研究只能分析一个暴露因素;但广义上,一个真正的队列研究,往往是多个队列研究的集合。我们在建队列时,往往会同时设定多个暴露因素,同时随访得到多个结局。比如本案例的文章,设置的暴露因素就包括脂肪质量指数(FMI)或无脂肪质量指数(FFMI)以及血清脂肪因子肿瘤坏死因子(TNF)和白介素。结局也很多,该研究估计不仅只研究足痛,全身疼痛都探讨了个遍。

在发表论文时,可以建立多因素回归分析,同时分析多个暴露因素影响。不过,多则烂,重点不突出。好的文章,一般应聚焦于一两个同类型指标,最好就是聚焦于一个暴露因素开展队列论文的写作。

4.特别需要注意:明确队列研究对象

病例对照研究,研究对象分别是阳性事件的人和阴性事件的人。比如,研究足痛,那么风湿科足痛的患者是病例组的目标人群,其他科非足痛患者是对照组的目标人群,我们从中抽取样本来进行研究。

而队列研究,研究对象分别是具有暴露的人群和不具有暴露的人群,比如暴露人群是体重指数较高者、对照组是体重指数低于24的人群。

很多人怎么开展回顾性队列研究的呢(研究伊始结局已经出现(足痛、非足痛))?既然结局都已经出现了,那么就抽取足痛和非足痛的人凑一起,进行统计分析吧。

错在哪里?当然你抽取足痛与非足痛人群开展研究时,你的思维已经不是队列研究的思维,而是病例对照研究的思维,你的人群不是队列人群的目标人群。为什么?这是因为,当挑选痛与非足痛人群开展分析时,你已经排除了一大批人群。他们可能是失访的人群、愿接受随访的人群。实际上,这些人都是目标人群的重要组成部分。

只有从暴露因素出发,框定目标人群,选择队列样本人群,逐一随访各个体的结局(哪怕是失访,也是一个结局)。这才是正确的姿势。

这是病例对照研究与队列研究最重要的区别之一。

因此,队列研究非常重要的工作是绘制研究对象流程图,指出研究伊始多少人是研究对象,根据纳排标准,真正进入随访的有多少?有多少人失访?造成的缺失人群有规模多大?

与此相对于的是,我们要考虑缺失数据的处理:只是分析有结局的对象呢?还是将缺失结局对象的信息填补后再进行分析呢?

5. 病例对照研究和队列研究结果呈现的方式有区别
在单因素分析中,病例对照研究和队列研究往往采用行列表绝对数(百分比)呈现数据。但是两者呈现方式略有区别。

病例对照研究:
由于病例对照研究是按照病例组和对照组进行分组的,分类数据构成比是病例组内部加起来100%,对照组内部加起来100%。比如糖尿病:


如果是队列研究,则按照暴露组和对照组进行分组。类数据构成比是暴露组内部加起来100%,对照组内部加起来100%。同时也计算了糖尿病患者的冠心病发生率为60.5%;没有糖尿病患者,冠心病发生率为49.6%。

至于本文的足痛的队列研究,因为IL-6等暴露因素是定量数据,没法分组,所以作者按照结局(是否足痛)进行了分组比较。这种情况不多见。


6. RR值,并非队列研究独有
除了队列研究,另外一个研究设计类型也经常计算RR值,那便是RCT研究。

比如在之前的案例中,

吲达帕胺片治疗原发性高血压疗效,将患者随机分为两组。试验组用吲达帕胺片加辅助治疗,对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异?

实验组和对照组的有效率分别是80.77%和45.45%,两组率的比较,我们也根据RR值的计算公式,计算它RR值
本例若设定阳性事件是“有效”,那么实验组相对对照组,RR值计算得到1.77。这意味着,吲达帕胺片这一干预措施能够促进阳性事件、即提升“有效”的发生概率达0.77倍。

所以,正如我文章先前说的,RR是医学研究最重要的指标,没有之一。它广泛用于医学研究,用于评价阳性事件发生的相对概率。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
老卫带你学
流行病学 重点知识
护理科研设计:“队列研究”入门
10流行病学题库2012
临床研究类型:我们可能永远不知道我们将去往何方,但最好知道我们现在何处!
临床研究 | 一文搞清楚病例对照研究和队列研究!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服