【讲座】多因素分析方法在控制混杂因素中的应用

文章来源：中华糖尿病杂志, 2022,14(1) : 84-87.

作者：郭婧怡于祥田胡承

单位：上海交通大学附属第六人民医院临床研究中心　上海市糖尿病研究所　上海市糖尿病重点实验室　上海市糖尿病临床医学中心

摘要

混杂是临床研究中重要的偏倚来源之一，在观察性或干预性糖尿病研究中均不可避免。多因素分析方法是数据分析阶段常见的校正混杂因素的统计学方法，笔者将以糖尿病研究为例，介绍几种常见的多因素分析方法及运用多因素分析方法校正混杂因素时需要注意的问题。

临床研究在前期设计、方案实施、数据分析和结论推导的过程中受某些或某种因素的影响，产生了系列错误，致使研究结论系统性偏离了真实情况，被称为偏倚（bias）［1］。偏倚属于系统误差（systematic error），按其产生阶段的不同可分为：选择偏倚（selection bias）、信息偏倚（information bias）和混杂偏倚（confounding bias）［2］。其中，混杂偏倚即混杂（confounding），是临床研究中偏倚的主要来源之一，其定义为由于一个或多个潜在混杂因素（confounding factor）的存在，掩盖或夸大了研究因素与结局事件之间的真实联系，从而使研究结果产生系统性偏离。混杂因素具有以下3个特点，即与研究因素有关；与结局事件的发生相关；不是研究因素和结局事件因果关系链上的中间环节。

由以上特点可以看出，研究中的混杂因素是与暴露及结局均相关的影响或危险因素，并且在比较的组间不均衡。目前已知的与糖尿病相关的影响因素包括：社会人口学信息（年龄、性别、种族/民族等）、健康行为（饮食、运动、吸烟、饮酒情况等）、体检及生化指标［体重指数（body mass index，BMI）、血脂水平等］、疾病史（糖尿病家族史、不良妊娠史、高血压史等）等［3, 4］。上述因素在不同的糖尿病相关研究中均可能是潜在的混杂因素，在开展一项具体的糖尿病临床研究时，需依据研究目的结合临床和流行病学专业知识，识别该研究所涉及的混杂因素。例如，在2型糖尿病（type 2 diabetes mellitus，T2DM）发病年龄与痴呆发病风险的关联性研究中，T2DM为暴露因素，确诊痴呆为结局事件，作者在研究的主要结果分析中校正的混杂因素包括：年龄、性别、种族、教育水平等社会人口学信息；是否吸烟、饮酒频率和强度、运动频率、水果蔬菜食用情况等健康行为信息；血压、BMI、是否使用心血管疾病药物、伴发心血管疾病等健康相关因素［5］。可以看出，该研究所校正的混杂因素是已知的与T2DM及痴呆均相关且不是这两种疾病因果链上中间环节的影响因素。

通常，混杂因素是很难避免和消除的，对于混杂偏倚的控制可以从研究设计阶段和数据分析阶段两方面考虑。研究设计阶段控制混杂常用的方法包括：（1）针对潜在的混杂因素进行限制；（2）将混杂因素在试验组和对照组间进行匹配，保证其在两组间的均衡；（3）采用随机化原则进行分组。在干预性研究中，随机对照试验由于遵循了随机化原则，各种已知和未知的混杂因素在不同处理组间均衡可比，从而有效地控制了研究中存在的混杂偏倚，现已被视为评价干预效果的金标准方案。在数据分析阶段可采用分层分析和多因素分析等统计分析方法识别并校正混杂因素［6, 7］。其中多因素分析方法是常用的统计方法之一，主要包括协方差分析和多因素回归模型（多重线性回归、logistic回归、Cox比例风险回归模型及Poisson回归）等。我们将以糖尿病研究为例，分别介绍几种常见的多因素分析方法，同时探讨不同方法在应用时需要注意的问题。

一、常见的多因素分析类型

（一）协方差分析

协方差分析又称带有协变量的方差分析，是一种综合了方差分析和线性回归的重要统计学方法［8, 9］。在一项研究中，当自变量（处理因素）为分类指标，结局变量和协变量均为连续性指标时，可考虑采用协方差分析，以防止偏倚的产生。例如，在达格列净上市前的Ⅲ期临床试验中，服用二甲双胍但血糖控制不佳的T2DM患者被随机分配至剂量分别为2.5、5.0、10.0 mg/d的达格列净组或安慰剂组，研究主要终点指标为24周时糖化血红蛋白（glycated hemoglobin A1c，HbA1c）较基线值的变化。因患者基线时的HbA1c水平对其干预后的下降值有较大影响，故此研究将HbA1c基线值作为协变量，并使用协方差模型分析了不同处理组间HbA1c水平变化的差异。结果显示，在第24周时，剂量分别为2.5、5.0、10.0 mg/d的达格列净组HbA1c平均下降水平与安慰剂组相比差异均有统计学意义，分别为-0.67%（P=0.000 2）、-0.70%（P<0.000 1）、-0.84%（P<0.000 1）［10］。该研究的处理因素为多分类指标，结局变量HbA1c水平变化值和混杂因素HbA1c基线值均为连续性指标，故使用协方差分析控制混杂因素。

（二）多因素回归模型

当研究中具有多个混杂因素需要考虑时，可根据结局变量类型选择相应的多因素统计学模型进行校正。对于连续型结局变量可考虑多重线性回归；分类型结局变量（包括二分类或多分类）可选择logistic回归；时间事件型结局变量应选择Cox模型；当结局变量为事件发生数时可选择Poisson回归模型。

1.多重线性回归：多重线性回归是研究一个连续型结局变量与多个自变量间线性关系的统计学分析方法［11, 12］。其基本表达形式为Y=β0+β1X1+β2X2+…+βkXk+ε，其中，Y为结局变量；β0为常数项，即截距；β1…βk为各自变量Xj对应的偏回归系数，表示为当其他自变量保持不变时，Xj每变化1个单位，结局变量Y的平均改变量为βj；ε为随机误差。例如，在探讨丹麦学龄儿童1型糖尿病（type 1 diabetes mellitus，T1DM）与其标准化测试成绩间是否存在关联的研究中，作者使用多重线性回归模型分析了患病与学生标准化阅读成绩和数学测试成绩之间的关系。为控制不同年级和测试题之间的影响，该研究将年级、试题和测试年份纳入多重线性回归模型进行调整，并在此基础上对社会经济状况（性别、移民情况、父母教育水平等）进行调整。模型分析结果显示，校正年级、试题和测试年份后，患有T1DM儿童与非T1DM儿童测试分数差异为0.24，95%CI为-0.90~1.39，校正社会经济状况后差异为0.45，95%CI为-0.58~1.49，差异均无统计学意义［13］。在上述研究中结局变量两组儿童的测试分数为连续性指标，故作者使用多重线性回归模型控制混杂因素。

2.logistic回归：logistic回归是研究二分类或多分类结局变量与多个影响因素之间关系的多因素回归方法［14, 15］。设结局变量Y=1表示阳性结局，Y=0表示阴性结局，该模型可以表示为

，其中，P为阳性结局事件发生的概率；β0为常数项；β1…βk为回归系数。对以上公式进行logit变换可以得到logit模型，即Logit（P）=β0+β1X1+β2X2+…+βkXk。例如，在美国开展的一项糖尿病与非缺血性特发性心肌病（idiopathic cardiomyopathy，ICM）之间关联的病例对照研究中，研究者按1∶10比例纳入44 837例ICM患者和450 254例对照，并采用多重logistic回归模型，同时校正人口学变量（包括年龄、性别、收入、种族以及高血压等）混杂因素，来评估糖尿病与ICM之间的联系。结果表明，ICM患者的糖尿病患病率显著高于对照组（分别为26.6%和17.2%），对应的相对比值（relative odds，RO）为1.75（95%CI为1.71~1.79），校正混杂后RO为1.58（95%CI为1.55~1.62），结果显示糖尿病与ICM独立相关［16］。该研究中ICM患者和对照组是否确诊糖尿病为二分类结局变量，故研究者使用logistic回归模型校正了该研究中已知的影响糖尿病结局的混杂因素。

3.Cox回归：Cox比例风险回归模型简称Cox模型，是针对生存资料的多因素分析方法［17］。其表达式为：h（t）=h0（t）exp（β1X1+β2X2+…+βkXk），其中，h（t）为风险函数；h0（t）为基准风险函数；β1…βk为各对应自变量的偏回归系数。例如，一项评估冠状动脉疾病患者血浆氨基酸水平与糖尿病发生风险间关联的队列研究中，研究者对2 519例患有冠状动脉疾病且没有糖尿病的患者进行了随访，在中位数为10.3年的随访期间，267例患者确诊糖尿病。该研究使用Cox模型评估氨基酸水平与糖尿病发生风险之间的联系，并初步校正了年龄和性别两个混杂因素（模型一），发现包括支链氨基酸在内的几种氨基酸水平与糖尿病的发生显著相关，而在进一步校正BMI、肾小球滤过率、高密度脂蛋白胆固醇、甘油三酯和C反应蛋白等混杂因素后（模型二），上述关联被减弱［18］。该研究除了收集研究人群是否确诊糖尿病这一结局的发生情况，同时明确了从纳入研究到确诊糖尿病的随访时间，故使用Cox模型进行多因素分析。

4.Poisson回归：Poisson回归适用于单位时间或空间内某事件（即结局变量）发生次数的影响因素分析［19］，其模型表达式为：lnλ=β0+β1X1+β2X2+…+βkXk，其中，λ为观察单位内事件的发生次数；β1…βk为偏回归系数。将回归系数转化为相对危险度（relative risk，RR）或发病率比（incident rate ratio，IRR），则表示为当其他自变量保持不变时，Xj每变化一个单位，结局事件发生次数平均改变RR（eβj）倍。例如，在英国T1DM和T2DM患者与普通人群相比感染发生风险的匹配队列研究中，在入组研究人群时，通过匹配控制了糖尿病组和对照组在年龄、性别和临床诊疗等混杂因素上的差异，在数据分析时，使用Poisson回归分析了2008至2015年间两种糖尿病患者与对照组之间感染事件IRR，发现糖尿病患者其感染相关住院的IRR为1.93（95%CI为1.88~1.98）。进一步校正了混杂因素吸烟情况、BMI和多重剥夺指数后，IRR为1.74（95%CI为1.70~1.79），虽然校正混杂因素后糖尿病和严重感染之间的关联有所减弱，但仍呈现显著性差异［20］。在本研究人群中，结局变量为每年每1 000人中感染相关事件发生例数，且感染发生率很低，服从Poisson分布，故使用Poisson回归分析糖尿病和感染发生率间的联系并校正混杂因素。

二、应用多因素分析控制混杂因素时需要注意的问题

1.如何选择恰当的多因素分析方法：通常可根据结局变量类型选择合适的多因素分析方法。当结局变量为连续变量时，可考虑使用协方差分析或多重线性回归分析研究因素与结局变量之间的关系，并将混杂因素或协变量纳入模型进行校正；当结局变量为二分类或多分类变量时（如是否发病、有效或治愈等），可采用logistic回归分析，将研究因素、混杂因素及其交互作用纳入模型，即可在校正混杂因素的作用下，分析研究因素与结局变量之间的联系；当数据资料同时包含结局事件的发生和发生事件所需时间时，可考虑使用Cox模型，分析多因素对上述生存资料的影响；当结局事件的发生服从Poisson分布，如某种罕见疾病的发生，可使用Poisson回归分析结局事件发生率或发生次数均数与影响因素之间的关系，并控制混杂因素［21, 22］。

2.如何确定需要校正的混杂因素：首先，研究者在临床研究设计和数据收集阶段应尽量详细收集可能的混杂因素，可根据专业知识和文献报道选择与结局事件有重要影响的因素。在观察性研究中，由于缺乏随机分组，混杂因素往往来自组间分布并不均衡且与研究因素和结局事件均有关的因素［23］。在随机对照试验中由于在研究实施阶段进行了随机化设计，潜在的混杂因素可以得到控制，但仍有某些因素在试验前未知或在实施过程中难以控制，如多中心试验中的中心效应、主要终点指标的基线值对预后的影响等［22］。

3.混杂因素过多时不适用多因素分析方法：当有多个混杂因素需要控制时，可选用多因素分析方法进行校正，但纳入分析模型的混杂因素过多，反而会导致检验效能的下降，分析模型甚至可能产生共线性、过度拟合等问题。因此，混杂因素的选择应以具有临床意义、与研究结局变量相关性强为原则，并且要控制数据分析模型中的混杂因素个数［7，24］。当研究中存在大量潜在的混杂因素时，推荐使用倾向性评分校正法对多个协变量进行调整，达到数据降维的目的［25］。

三、小结

临床研究中由于混杂因素存在而导致的偏倚不容忽视，对于混杂偏倚的控制通常可以从研究设计阶段和数据分析阶段两方面进行考虑。在研究设计阶段常用的控制混杂方法包括：限制、匹配和随机化；在数据分析阶段可采用统计分析方法识别并校正混杂因素，主要的方法有分层分析和多因素分析。分层分析指按混杂因素对研究对象分层后进行分析，从而控制该因素对研究结果的影响，其局限性是每次只能控制一个混杂因素。当有多个混杂因素需要控制时，可考虑使用多因素分析方法进行校正，主要包括协方差分析以及多重线性回归、logistic回归、Cox比例风险回归模型、Poisson回归等多因素回归模型。运用多因素分析处理研究中的混杂因素时需要注意：一是应根据结局变量类型选择合适的多因素分析方法；二是应结合临床和流行病学专业知识来确定当前研究中潜在的混杂因素，一般既往文献报道可以提供较好的混杂因素参考；三是多因素分析方法中涉及的混杂因素不宜过多，否则可能导致共线性、过度拟合等问题。无论是糖尿病还是其他领域的临床研究，混杂因素的识别和控制是研究结论可靠性的重要保证。

参考文献略

作者投稿及专家审稿请登录中华糖尿病杂志官方网站：zhtnbzz.yiigle.com

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。