我们已经完成了初级统计的介绍及其SAS实现,这一期我们将开启高级统计方法之旅。本期主要从多因素分析方法类型、用途、注意事项进行介绍。
多因素分析又称为多元分析或多变量分析,是研究多个相依因素(或变量)之间的关系以及具有这些因素的样品(个体)间的关系的一类统计分析方法。医学是研究人的生理、病理现象及疾病发生发展规律和防治措施的一门应用科学。影响人的生理、病理变化和疾病发生发展过程的因素很多,而这些因素之间常用交互作用。某种疾病是否发生,取决于致病源、环境条件及机体状况等许多因素等;疾病的诊断、预后视病人的症状、体征、检验结果、治疗情况及机体状况而定,等待。这些问题在统计学上可应用多因素分析方法来处理。多因素分析的方法有很多,按其分析目的可分为以下两大类:
研究疾病病因、诊断、疾病的预报预测等可应用回归分析、判别分析等,这类研究有原因因素和结果因素之间,研究的是原因因素对结果因素的作用或结果因素对原因因素的依赖,常用的统计学方法详见表11-1。
表11-1 研究因素间依赖性常用的统计学方法及其SAS过程步
研究各因素间的彼此关系或彼此影响时,可应用用多元性性相关、典型相关、聚类分析和主成分分析等,常用的统计学方法详见表11-2。
表11-1 研究因素间互依性常用的统计学方法及其SAS过程步
多因素分析方法的主要目的就是要简化研究问题的复杂性,以便抓住事物的主要矛盾。在实际应用中主要有两个途径:
从原有较多变量中选出一些有典型的、代表性的和能说明问题的变量,如逐步回归分析中只把对因变量作用显著的变量引入回归方程;判别分析中只把对判结果有作用的判别指标选入判别函数;聚类分析中通过指标聚类选出少量几个典型指标代表原来众多指标等。
研究中的多个变量彼此相关,有多个相关系数的参数,通过变量变换可把彼此相关的原变量转换成彼此独立的新变量,从而减少许多相关系数的参数,如主成分分析、典型相关分析。
1. 样本含量要求
在多因素分析中,有人提出样本含量n至少是自变量的个数的5-10倍;也有人提出样本含量n至少是自变量的个数的10-20,尚无可靠依据。原则上,自变量个数越多,样本含量就越大。
2.正态分布要求
大多数多因素分析方法要求总体符合多元正态分布,但是在医学研究或实践中这一要求难以满足,也很难用统计方法检验这一要求是否达到了。实际可行的办法是:如果每个随机变量都服从单变量正态分布,可认为由多个这样的随机变量构成的总体服从多元正态分布。实际应用中,只要样本量足够大,即使这个别变量不符合正态分布,也可应用多因素分析方法。一是根据概率论的中心极限定理,不管总体服从什么样的分布,当样本含量足够大时,样本统计量近似服从正态分布;二是对建立的多因素分析模式要进行实际检验,如果符合实际,达到了实际要求,就可接受该模式。
3.变量变换
定量资料和定性资料都有相应的多因素分析方法,若在研究因素中既有定量变量,又有分类变量、等级变量,则需要进行指标转换。若用定性资料的多因素分析方法,则要把分类变量、等级变量转换成定量变量。
定量变量转换成等级变量,可根据专业知识规定划分变量值的间隔,即将其转换成相应的等级。分类变量和等级变量转换成定量变量,一般转换成取值为(0,1)的两分类变量,如性别,则转换为一个聚会为(0,1)的二分类变量;若为多分类变量,如职业(工人、农民、干部、学生),则需要设置哑变量。等级变量的量化则按等级自低到高转换成一个取值为(0,1,2,…)的不连续变量,但是这种等级变量的转换方法有一定的主观性,实际工作中可选用认为更为合理的等级变量的数量化方法。
4.多种方法的联合应用
在实际应用中,同一个问题可能用不同的方法解决,如研究一个应变量与多个自变量之间的关系,可用多元回归、逐步回归、路径分析等;进行分类研究可用聚类分析、主成分分析;对事物的综合评价可以用主成分分析、模糊综合评价。对同一个问题可多个方法比较,择优选用,结合应用。
多种方法也可配合解决同一个问题。在有判别分析时,要求事先知道各类总体的情况,然后才能判断样品的归属。如果各类总体还不十分清楚时,可先用聚类分析进行聚类,再建立判别函数,然后对新样品的类别进行判别。在回归分析时,当自变量间存在多重共线问题时,回归效果不好,则可先将自变量进行主成分分析或探索性因子分析,然后从每一类中挑选最有代表性的自变量建立回归方程,也可对第一类分别建立回归方程,相对来说这样建立的回归方程稳定度要高。
5. 多因素分析模型结果的解释
在一定条件下,多因素分析方法可提示某些医学现象之间的定量关系,并且即使对同一个对象,用相同的研究方法,也可能得出不一样的模型。因此,不能仅从数字结果如何去肯定或否定这些定量关系,而必须进行实际意义的验证,只有与实际意义一致的多因素分析的模型才会提供一定的指导意义。
整理不易,欢迎点亮再看哦!
参考文献:
[1] 高惠璇. SAS系统SAS/STAT软件使用手册[M]. 北京:中国统计出版社, 1997.
[2] 陈景武, 苏颀龄. 卫生管理多因素分析[M].济南:山东大学出版社, 1994.
SAS系列推文
联系客服