逻辑回归的常见问题

作者：陶立元赵一鸣

来源：临床流行病学和循证医学

逻辑回归是分类资料统计分析的一种重要方法，是一种研究多水平（包括两水平）的反应变量与其影响因子（又称自变量）间关系的回归分析。

这里简单解释一下几个概念：

1、分类资料是指所得数据是分类的，不完全连续的；可分为有序分类和无序分类，有序分类如疾病的预后（未改善、改善和痊愈），无序分类如研究对象的职业（工人、农民、知识分子等）。

2、反应变量就是我们常说的因变量，顾名思义就是因别人的变化而变化的量，比如研究某病预后的影响因素，这里的预后就是因变量。

3、自变量（影响因子），通俗地说就是不因别人变化而自己变化的量，比如上例中某病预后的影响因素就是自变量，如病人的年龄，疾病分期分型，处理方式等等。

下面我们针对逻辑回归的常见问题作一讨论。

1、为什么会有非条件和条件逻辑回归？

按照研究设计的不同，可将逻辑回归分为成组资料的非条件逻辑回归和配对资料的条件逻辑回归两类。成组资料是指组与组之间是相互独立的，没有针对每一个病例去寻找他特定的对照，它是相对于配对资料而言的。配对资料是指研究设计之初，根据潜在的影响因素如性别、年龄等将病例与对照配成对子，可以是一个病例配一个对照，也可以是一个病例配n个对照。对于成组资料，采用的是非条件逻辑回归；对与配对资料，采用的是条件逻辑回归，两者之间有着明显的区别。

按照因变量分类数的多少，可将非条件逻辑回归分为二分类逻辑回归和多分类逻辑回归两类，二分类是指因变量只有两个分类（如是否发生出血），多分类是指因变量有三个及以上分类（如按照出血量的不同，分为轻度、中度和重度出血）。

在实际工作中我们最为常用的还是“二分类非条件逻辑回归”，即因变量是两个分类的，研究设计不是病例与对照配对设计的，而是常规的成组设计。

2、逻辑回归需要多大的样本量？

在实际工作中，经常遇到仅有20-30个病人的资料去做逻辑回归的，这样回归结果可能存在样本量不足的问题。那么在逻辑回归的计算中到底需要多少样本量呢？

对于逻辑回归样本量的确定，有一些计算公式和工具表可供参考。一般认为非条件逻辑回归样本容量应为自变量个数的5-10倍，即如果你纳入5个自变量那么样本的总例数应该大于25-50人。较为严格的要求是，在因变量的各个水平中，例数最少的水平的样本数也应该是自变量个数的5-10倍。比如有200个研究对象，其中患病40个，未患病160个，想研究患病的影响因素，那么逻辑回归可纳入的自变量个数为40/10=4个。也有教材指出，经验上非条件逻辑回归中各组的人数应该至少有30-50例（摘自《医学统计学》第三版p293，人民卫生出版社，主编孙振球）。

对于条件逻辑回归而言，配对组数不应<50组，且总体的样本量应该大于纳入方程的自变量个数的20倍以上。

逻辑回归的所有统计推断都是建立在大样本基础之上的，因此要求有足够的样本量来支持其回归结果的可信度。

3、如何判断逻辑回归模型拟合的好坏？

通常我们在分析自己的数据时，会遇到不同的分析方法会跑出不同的逻辑回归结果，那么哪个结果更好呢？或者是在多大的程度上，我们能够说明自己在逻辑回归中寻找出的影响因素是对的呢？这就需要我们对逻辑回归模型拟合的效果进行一定的判断。

常见的逻辑回归模型效果判断指标有对数似然值、伪决定系数、模型预测的正确率和ROC曲线。

具体如下：

（1）对数似然值，逻辑回归是通过极大似然法求解的，极大似然取值在0-1之间，可利用-2倍的对数似然值来表示模型的拟合好坏，其值越小越接近于0，说明模型拟合效果越好；

（2）伪决定系数，跟线性回归一样，逻辑回归也存在决定系数，称为伪决定系数。它是由似然函数计算而来的，它的值越接近于1说明回归拟合的越好。在SPSS的结果中存在两种伪决定系数，分别是1989年Cox和Snell提出的伪决定系数（取值范围为0≤R2<1）和1991年Nagelkerke提出的最大调整决定系数（取值范围为0≤R2≤1），两者选一即可。

（3）模型预测的正确率，显然对因变量结局预测的准确程度也可以反应模型的效果。SPSS在Logistic回归过程中会给出模型预测的列联表，这也是模型拟合好坏的判断依据之一。同时在SPSS中用户还可以自定义模型预测的概率标准（默认是0.5）。

（4）ROC曲线，在获得每一个研究对象的预测概率之后，我们可以通过制作ROC曲线来判断一下，取不同的预测概率值时，预测的准确率会有何种变化。

4、用SPSS做逻辑回归分析的注意事项

（1）自变量和因变量的变量名最好都是英文的。在做逻辑回归时，如果自变量或因变量的变量名中含有中文字符或括号可能会导致逻辑回归结果非常迥异，而且错误的莫名其妙，且不同版本的SPSS出错的形式还不尽相同。建议在所有的统计分析中，变量名均需要修改为英文格式。

（2）当自变量中有多分类名义变量时，应该将其设为哑变量进行处理。

（3）如果某连续性自变量可以将因变量的两组完全分开时（如某自变量在病例组中的的最小值大于该自变量在对照组中的最大值时），该自变量不应该被纳入回归方程。

（4）如果某分类自变量在因变量的某一组中取值完全一致时（如在病例组中某自变量取值均为1，而在对照组中自变量的取值有0也有1），该自变量不应该被纳入回归方程，否则该自变量的p值特别大，且不会被剔出方程，OR值接近0或无穷大。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。