队列研究的基本统计策略 | 14天学会医学统计与SPSS、R语言公益课(D22)

1

队列研究基本分析策略

如何分析队列研究的数据？

分析队列研究数据并不太难，也就是比较不同人群（暴露组和对照组）的结局差异性。比如，高血压组和正常组，随访2年后生命质量得分的差异性。得分是定量数据，两组定量数据的比较，应采用t检验或者秩和检验。

又比如，高血压组和正常组，随访5年后脑卒中的发病率的差异性。用什么方法？两组率的比较用卡方检验！

因此，t检验、卡方、秩和、方差分析都能够用于队列研究暴露组和对照组的差异性。

不过，队列研究典型的特点是，人群分组是自然而成，暴露组人群和对照组人群往往的基本特征（一般称之为“基线”特征）是不同的。比如，高血压组很可能平均年龄较正常组大。如果随访5年后，脑中风的发病率存在着差异。这种情况下，能否说明差异是因为高血压造成的，还是因为年龄结构不同带来的呢？

高血压组和非高血压组组间分组不均衡，则不具有可比性。

没有可比性，哪能探讨因果关联性？因此，t检验、卡方、秩和、方差分析能分析人群的差异性，一般能分析人群的差异性，不能肯定说说明暴露因素与结局存在着因果关联性。

怎么办？如何更科学地分析两者的因果关系？一般的方法是采用多因素回归的方法排除其它非暴露因素（比如年龄）的干扰。另外，在医学项目中，很多时候我们希望探讨影响结局的多个因素，那么多因素回归分析显然也是最好的方法之一。

因此，队列研究不仅需要基本统计学方法，也需要高级回归方法加持。

2

队列研究基本分析步骤

队列研究基本统计分析步骤包括以下3步：

第1步，统计描述。总体描述人群的特征、分组情况、分组人数、随访时间、失访情况。

第2步，初步分析暴露因素与结局的关联性。根据结局的特征，暴露因素与结局的关联性，一般常用的条件与方法如下：

从上表可以得知，简单关联性方法包括两类，一类是基础统计学方法--差异性比较方法（关联性方法1），另外一类则是单因素回归分析，如单因素线性回归、单因素Logistic回归、单因素Cox回归（关联性方法2）；两类方法结果基本一致，差异即相关！（该内容在day19 已有介绍）

此外，三类不同的结局对应是三类完全不同的方法。其中LogRank和Cox回归分析的方法，还没有获得系统的介绍（我将在今后课程进行详细阐述）。

效应值方面，OR值、RR值和HR值堪称三剑客。其中，OR值已在之前篇章中详细阐述；HR是生存分析关键效应值，它将与Cox回归同时亮相；RR值应该是医学研究最重要的指标，队列研究能够计算出RR值。本文稍后重点介绍RR值。

第3步，多因素回归探讨一个或者多个暴露因素对结局的影响。最后，主流方法是借助回归分析排除干扰，研究暴露因素的影响及及影响程度。常见的的方法如下：

同样，不同的结局有不同的回归分析方法。利用线性回归探讨定量结局的影响因素，利用logistic回归探讨2分类结局的影响因素，采用Cox回归探讨生存结局（双结局资料）。

不过，Logistic只能计算OR值，无法计算非常重要指标：队列研究还有另外两种分析分类结局的方法：Poisson回归与log-binomial回归。最近几年它们是队列研究重要的统计学方法，并且非常重要的是可以计算RR值，大家可以关注下。

队列研究与RR值

这一部分回答几个重要问题：什么是RR值？为什么它很重要，甚至比OR值更重要。

1

RR的概念与计算

RR值是医学研究最重要的效应值指标，没有之一。

RR值，全称是相对危险度（Relative Risk），也就是暴露组相对对照组，结局阳性事件发生的风险程度，用于描述暴露因素与终点结局事件关联。

它的算法是，暴露组阳性率与非暴露组阳性率率的比值。令a/m1=P1或者Pe，把c/m0=P0或者Pc，则

RR大于1，说明暴露组相比对照组容易发生阳性事件，反之则说明暴露组不容易发生阳性事件。无论大于1还是小于1，说明暴露因素与结局有关。

RR值大于1，提示暴露是阳性事件发生的促进因素；

RR值小于1，提示暴露是阳性事件发生的阻碍因素；

RR值等于1，提示暴露对阳性事件发生无影响。

RR值，是暴露组相对对照组，发生阳性事件的概率的倍数。

比如，吸烟与肺癌发病关系的队列研究。

计算RR值如下：

式中，pe为吸烟组组的发病率， po为不吸烟组的发病率。RR＝13.5表示吸烟者患肺癌的概率（或者风险）为不吸烟者的13.5倍，比不吸烟者高12.5倍。

2

RR值需要假设检验

RR值是统计量，是根据样本得到的数据。它必须接受假设检验，论证总体上RR值是否等于1。由于RR是是基于两个率（四格表资料）得到的效应值，假设检验采用的是卡方检验。

SPSS软件卡方检验不仅可以计算P值，同时也可以计算RR值。例如吸烟的案例卡方检验和RR值的计算：

除了SPSS，数据分析可使用郑老师研制的工具

——在线智能医学数据分析平台

www.medsta.cn

（电脑浏览器打开）

统计分析结果输出更快捷、更规范

卡方检验结果显示，P<0.001说明暴露组和对照组肺癌发生率存在着统计学差异，也说明RR值总体上不等于1。

计算RR值和95%CI 结果如下：RR=13.5，95%CI: 5.41-33.71。RR值置信区间不包括1，也说明RR总体不等于1。

3

RR值为什么这么重要，比OR值还重要

医学研究中，RR值是最重要的效应指标。主要原因有2点，第一，医学研究最常见的结局指标是分类结局而非定量结局，分类结局的效应指标一般是RR值或者OR值；第二，RR值与OR相比，它能够直接反映暴露因素相对对照，提升阳性事件的发生概率的倍数。比如，RR＝13.5表示吸烟者患肺癌的风险为不吸烟者的13.5倍，风险提升12.5倍。这一理解无论是临床应用还是学术研究都非常容易接受。OR值，不能直接反映风险提升的倍数，它的结果与RR值相似，但不等于RR值。所以，本系列教材在介绍病例对照研究时（病例对照研究的基本统计分析策略），一再强调，OR值结果汇报不能说明风险增加的倍数，只能是大致、约等于。

因此，RR值是很多临床研究想办法求得的一个效应值

4

logistic回归只能计算OR值，怎么办？

logistic回归是队列研究最重要最常见的方法，但是无法计算RR值，这不是意味着logistic回归方法就不适合队列研究？

不是的。

虽然Logistic回归分析得不到RR值，但是，第一，由于OR值和RR值一般比较接近，第二，OR值和RR值假设检验的结果一致，OR值具有统计学意义，则RR值也具有统计学意义，第三，Logistic方法软件操作更简单，因此我们经常使用Logistic回归计算OR来研究队列研究。

特别是：对于发病率很低的慢性病（如心脑血管疾病、恶性肿瘤等），由于P<<1，OR可作为RR的近似值估计：

所以，logistic回归常用于流行病学调查资料，当它得到某一因素的回归系数估计值后，就可得到不同水平下相对危险度的近似估计值。

于医学研究，用于评价阳性事件发生的相对概率。

本文更多疑问，请发送关键词5540到本公众号，了解更多答疑

案例分析

1

案例

这一篇推文，我顺手找到的是一篇英文文章，来自于《Arthritis Care & Research 》杂志，题目是：社区队列中脂肪成分和脂肪因子与足痛的关联。

该文章发表于2016年，诸位在文末“阅读原文”查看，文章写得比较全面，大家花点时间看一看，学一学。

2

统计策略

该研究是一项基于社区的队列研究，人群来自澳大利亚某个地区年龄≥50岁者，共1462人。

研究的暴露因素是脂肪有关成分的含量、脂肪因子水平，包括脂肪质量指数（FMI）或无脂肪质量指数（FFMI）以及血清脂肪因子肿瘤坏死因子（TNF）和白介素-6(IL-6）等

研究结局是随访期间是否发生足痛：“在过去的一个月中，大多数日子里您的双脚有没有疼痛，疼痛或僵硬？足痛分为两种情况：Prevalent foot pain和Future foot pain foot pain，具体定义可以查看原文。

由于是队列研究，统计分析策略一般就是包括本文所列的3步：统计描述、简单关联性分析、多因素回归分析。

3

具体分析过程与结果

1. 研究对象基本特征描述：给出各个人群的特征，均数、率，并且提供了95%CI，诚意满满。

2. 简单关联性分析

由于本研究暴露因素诸多，作者针对不同的指标，开展不同的分析。

针对定量数据形式存在的暴露因素，包括脂肪因子、脂肪成分，采用差异性的方法初步分析，探讨暴露因素与结局的关系；针对分类变量，比如性别、疾病、行为采用单因素回归的方法进行分析。无论差异性方法或者单因素回归，都是简单关联性分析。差异即相关！

第一，对于定量的暴露因素，采用秩和检验分析结局与各因素的关联。

这里特别提醒：一般情况下，队列研究是在简单关联性分析中，是按照暴露因素分组而非结局分组，然后计算暴露组和对照组的发生率（这与病例对照研究研究不同，病例对照研究按照结局分为病例组和对照组）；

但上表却是按照结局分组进行比较，比如比较No foot pain和 Foot pain在IL-6的差异性，采用的是秩和检验的方法。为什么呢？因为暴露因素IL-6是连续型定量数据，无法进分组，所以就按照结局进行分组了。

第二，针对分类的因素，作者采用单因素logistic回归分析，并计算OR值(实际上，卡方检验结果也可以，单因素logistic回归和卡方检验结果一致)。

3. 多因素研究，探讨影响因素

作者把差异性比较和单因素logistic回归分析P<0.20者全部拿来分别针对结局Prevalent foot pain和Future foot pain foot pain开展多因素的logistic回归。

在Prevalent foot pain结局方面，脂肪变量FMI和其它因素是重要影响因素。

Future foot pain foot pain结局方面，脂肪变量FMI和其它因素是影响因素。

注意点

1.队列研究样本量如何计算？

郑老师课程团队针对零基础者开发出了“浙中大样本量计算器”，包括了队列研究计算样本量，您可以下载。

这款高校老师制作的工具，手把手教你快速计算样本量！免费下载

2. 病例对照研究与队列研究统计方法具有相似性

病例对照研究在统计分析策略上，主要分为统计描述、简单关联性比较，多因素logistic回归；队列研究，也包括统计描述、简单关联性比较，多因素logistic回归；在简单关联性方法中，可以采用差异性方法，也可以采用单因素回归分析的方法。

最大的区别在于，回归分析方面，病例对照研究只能采用logistic回归，而队列研究可以考虑线性、logistic、COX回归、Poisson回归等，不同的结局采用不同的统计学方法。

3. 一个队列研究只能探讨一个暴露因素吗？

所有流行病学教材说，病例对照研究可以探讨同时探讨多个暴露因素，队列研究一次只探讨一个暴露因素。这往往给人很大的误解：“队列研究就是鸡肋，辛辛苦苦做了几年，我只能研究一个暴露因素?”

狭义上，教材说的没有错，一个队列研究只能分析一个暴露因素；但广义上，一个真正的队列研究，往往是多个队列研究的集合。我们在建队列时，往往会同时设定多个暴露因素，同时随访得到多个结局。比如本案例的文章，设置的暴露因素就包括脂肪质量指数（FMI）或无脂肪质量指数（FFMI）以及血清脂肪因子肿瘤坏死因子（TNF）和白介素。结局也很多，该研究估计不仅只研究足痛，全身疼痛都探讨了个遍。

在发表论文时，可以建立多因素回归分析，同时分析多个暴露因素影响。不过，多则烂，重点不突出。好的文章，一般应聚焦于一两个同类型指标，最好就是聚焦于一个暴露因素开展队列论文的写作。

4.特别需要注意：明确队列研究对象

病例对照研究，研究对象分别是阳性事件的人和阴性事件的人。比如，研究足痛，那么风湿科足痛的患者是病例组的目标人群，其他科非足痛患者是对照组的目标人群，我们从中抽取样本来进行研究。

而队列研究，研究对象分别是具有暴露的人群和不具有暴露的人群，比如暴露人群是体重指数较高者、对照组是体重指数低于24的人群。

很多人怎么开展回顾性队列研究的呢（研究伊始结局已经出现（足痛、非足痛））？既然结局都已经出现了，那么就抽取足痛和非足痛的人凑一起，进行统计分析吧。

错在哪里？当然你抽取足痛与非足痛人群开展研究时，你的思维已经不是队列研究的思维，而是病例对照研究的思维，你的人群不是队列人群的目标人群。为什么？这是因为，当挑选痛与非足痛人群开展分析时，你已经排除了一大批人群。他们可能是失访的人群、愿接受随访的人群。实际上，这些人都是目标人群的重要组成部分。

只有从暴露因素出发，框定目标人群，选择队列样本人群，逐一随访各个体的结局（哪怕是失访，也是一个结局）。这才是正确的姿势。

这是病例对照研究与队列研究最重要的区别之一。

因此，队列研究非常重要的工作是绘制研究对象流程图，指出研究伊始多少人是研究对象，根据纳排标准，真正进入随访的有多少?有多少人失访？造成的缺失人群有规模多大?

与此相对于的是，我们要考虑缺失数据的处理：只是分析有结局的对象呢？还是将缺失结局对象的信息填补后再进行分析呢？

5. 病例对照研究和队列研究结果呈现的方式有区别

在单因素分析中，病例对照研究和队列研究往往采用行列表绝对数（百分比）呈现数据。但是两者呈现方式略有区别。

病例对照研究：

由于病例对照研究是按照病例组和对照组进行分组的，分类数据构成比是病例组内部加起来100%，对照组内部加起来100%。比如糖尿病：

如果是队列研究，则按照暴露组和对照组进行分组。类数据构成比是暴露组内部加起来100%，对照组内部加起来100%。同时也计算了糖尿病患者的冠心病发生率为60.5%；没有糖尿病患者，冠心病发生率为49.6%。

至于本文的足痛的队列研究，因为IL-6等暴露因素是定量数据，没法分组，所以作者按照结局（是否足痛）进行了分组比较。这种情况不多见。

6. RR值，并非队列研究独有

除了队列研究，另外一个研究设计类型也经常计算RR值，那便是RCT研究。

比如在之前的案例中，

吲达帕胺片治疗原发性高血压疗效，将患者随机分为两组。试验组用吲达帕胺片加辅助治疗，对照组用安慰剂加辅助治疗。试分析两组率有无统计学差异？

实验组和对照组的有效率分别是80.77%和45.45%，两组率的比较，我们也根据RR值的计算公式，计算它RR值

本例若设定阳性事件是“有效”，那么实验组相对对照组，RR值计算得到1.77。这意味着，吲达帕胺片这一干预措施能够促进阳性事件、即提升“有效”的发生概率达0.77倍。

所以，正如我文章先前说的，RR是医学研究最重要的指标，没有之一。它广泛用于医学研究，用于评价阳性事件发生的相对概率。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。