逻辑斯蒂回归是曲线救国

逻辑斯蒂回归（logistic regression），亦称逻辑特回归（logit regression），是音译，有点像佛经里的“阿耨多罗三藐三菩提”，听起来神秘兮兮，其实并不复杂。“阿耨多罗三藐三菩提”指的是“无上正等正觉”，即最高的智慧觉悟。不过，鸠摩罗什等大德翻译佛经时，觉得汉语的意译不能完全表达梵文原意，容易让人望文生义，采用音译，目的是让诵经的人多用心想想。汉语世界的统计专家，翻译logistic regression的时候采用音译，原因好像有点勉强。采用意译，还是不大好懂，但至少不容易起误导作用，让人觉得这个分析方法跟“逻辑”有关系。采用意译，logisitic regression是以近似线性回归的方式分析一件事情（事件）发生（或一个个体具有某个属性）的概率。概率是一件事情（时间）发生（或一个个体具有某个属性）的可能性，概率的变异局限在0到1之间。一件事情发生的概率的变异区间从极小（无限接近0）到极大（无限接近1），统计学家先把概率转换成发生比（odds），即一个事件发生的概率与其不发生的概率的比率（发生的概率为分子，不发生的概率为分母）。然后取发生比的自然对数（natural logarithm）（即以2.718为底的对数），这个对数就是logit，即 log of it，natural logarithm of it，it就是发生比。以logit为因变量的回归分析就是logit regression（逻辑特回归），为了悦耳，叫做logistic regression（逻辑斯蒂回归）。换句话说，逻辑斯蒂回归是一种以概率的变化为因变量的近似线性回归的分析工具，只不过绕了两个弯子，把作为因变量的概率转换成了发生比的自然对数。

统计学家把概率转换成发生比的自然对数，不是画蛇添足，而是为了让我们能够以近似线性回归的方式分析概率的变化，同时又不做出不合乎逻辑的（荒谬）的预测。我们喜欢用线性方式想问题，正相关是水涨船高，负相关是此起彼伏或此消彼长，不相关是任凭风浪起稳坐钓鱼船，很好懂，还有三分诗意。麻烦的是，线性回归（最小二乘回归）要求因变量是连续变量，而社会科学中常见的因变项是二分变项，例如是否投票，是否支持某个政党，是否支持某个候选人。测量二分变项，最直观的方法是用二分法，是=1，否=0。但是，世界并不这么简单。以考试为例，如果是二分法，只分及格和不及格，那么及格=1，不及格=0。但是，及格的人，成绩并不相同，有的轻松及格，有的勉强及格；不及格的人，成绩也不相同，有的差一点儿，有的差很多。为了尽量深入地分析现实，我们需要分析及格的概率，概率从0到1，理论上来说是个无限的变异区间，从无限趋近0到无限趋近1。可是，我们不能简单地用线性方式分析概率的变化，否则会得出逻辑上荒谬的结果。如果直接以及格的概率为因变量，根据线性回归分析的结果，当自变量取一定值的时候，因变量（概率）可能小于0或大于1，二者都是逻辑上不可能的（荒谬的）。把概率转换成发生比的自然对数，就不会做出荒谬预测了。转化后，与无限趋近0的概率相对应的发生比的自然对数是负无穷（negative infinity），与50/50（五五开，随机）的概率相对应的发生比的自然对数的是0，与无限趋近1的概率相对应的发生比的自然对数是正无穷（positive infinity）。

数学的“无穷”不好想象，我们进一步简化。在社会科学研究中，学者们实际关心的极小概率是0.0001（万中有一，万一），随机概率是0.5（五五开），极大概率是0.9999（万仅一失），也就是关注概率从0.0001到0.9999的变异。我们虚构个例子。假设我们分析博士生在论文上花的时间与写出完美博士论文之间的关系。是否写出了完美论文是因变项，我们用概率测量为测量工具，测量单位是万分之一，即0.0001的概率。研究写作所花的时间（工夫）是自变项，我们以小时为测量单位，简称为时数。我们进一步假设，博士生每多下一小时工夫，即工作时数增加一个单位，做出完美博士论文的概率就增加万分之一，即0.0001；相反，博士生每少下一小时工夫，即工作时数减少一个单位，做出完美博士论文的概率就减小万分之一。假定一个博士生一共投入9999小时，那么他做出完美博士论文的概率就到了0.9999。我们画个散点图，以从1到9999的工作时数为横轴，以完成博士论文的概率为纵轴（从0.0001到0.9999），我们会得到一条标志这两个变量正相关的斜线。

但是，这样的线性回归有两个问题。第一，完美永远达不到，所以上面的研究假定不成立。现实中，随着博士生工作时间的增加，他会越来越接近完成一部完美的博士论文，但永远达不到完美。可是，如果我们做简单的线性回归，一定得出结论，就是如果博士生工作一万小时，他做出完美博士论文的概率是1。第二，更麻烦的问题是，如果博士生工作超过一万小时，他做出完美博士论文的概率大于1，而概率不可能大于1。

把概率转换成发生比的自然对数，可以让我们避开这个问题。我们仍然以写博士论文为例子。为了简化，我们把极小概率界定为0.0001（万中有一，万一），把极大概率界定为0.9999（万仅一失）。这时，情况就简单了。极小概率是0.0001，发生比是0.0001（0.0001/0.9999），0.0001的自然对数是-9.21；随机概率是0.5（五五开），发生比是1（0.5/0.5），1的自然对数是0；极大概率是0.9999（万仅一失），发生比是9999（0.9999/0.0001），9999的自然对数是9.21。我们画个散点图，以从1到9999的工作时数为横轴（自变量），以写出完美博士论文的发生比的对数（从-9.21到9.21）为纵轴（因变量），我们会得到一条标志这两个变量之间关系的S型曲线。根据这个分析结果，我们可以预测，随着博士生工作时间的增加，他会越来越接近完成一部完美的博士论文，但他永远达不到完美，这样我们就避免了逻辑上荒谬的（不合逻辑的）预测。

为了更直观地理解把概率转换成发生比的自然对数有什么神效，我们以从0.0001到0.9999的概率为纵轴，以与这个区间的概率相对应的发生比的自然对数为横轴，做个散点分布图，得到的是一条漂亮对称的S型曲线，这就是统计学教材中说的“S型”曲线。

一句话，把概率转换成发生比的自然对数，可以帮我们避免逻辑荒谬。这个分析工具对于主要分析二分因变量的社会科学学者有救驾之功，所以我戏称之为“曲线救国”。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。