统计学家把概率转换成发生比的自然对数,不是画蛇添足,而是为了让我们能够以近似线性回归的方式分析概率的变化,同时又不做出不合乎逻辑的(荒谬)的预测。我们喜欢用线性方式想问题,正相关是水涨船高,负相关是此起彼伏或此消彼长,不相关是任凭风浪起稳坐钓鱼船,很好懂,还有三分诗意。麻烦的是,线性回归(最小二乘回归)要求因变量是连续变量,而社会科学中常见的因变项是二分变项,例如是否投票,是否支持某个政党,是否支持某个候选人。测量二分变项,最直观的方法是用二分法,是=1,否=0。但是,世界并不这么简单。以考试为例,如果是二分法,只分及格和不及格,那么及格=1,不及格=0。但是,及格的人,成绩并不相同,有的轻松及格,有的勉强及格;不及格的人,成绩也不相同,有的差一点儿,有的差很多。为了尽量深入地分析现实,我们需要分析及格的概率,概率从0到1,理论上来说是个无限的变异区间,从无限趋近0到无限趋近1。可是,我们不能简单地用线性方式分析概率的变化,否则会得出逻辑上荒谬的结果。如果直接以及格的概率为因变量,根据线性回归分析的结果,当自变量取一定值的时候,因变量(概率)可能小于0或大于1,二者都是逻辑上不可能的(荒谬的)。把概率转换成发生比的自然对数,就不会做出荒谬预测了。转化后,与无限趋近0的概率相对应的发生比的自然对数是负无穷(negative infinity),与50/50(五五开,随机)的概率相对应的发生比的自然对数的是0,与无限趋近1的概率相对应的发生比的自然对数是正无穷(positive infinity)。
数学的“无穷”不好想象,我们进一步简化。在社会科学研究中,学者们实际关心的极小概率是0.0001(万中有一,万一),随机概率是0.5(五五开),极大概率是0.9999(万仅一失),也就是关注概率从0.0001到0.9999的变异。我们虚构个例子。假设我们分析博士生在论文上花的时间与写出完美博士论文之间的关系。是否写出了完美论文是因变项,我们用概率测量为测量工具,测量单位是万分之一,即0.0001的概率。研究写作所花的时间(工夫)是自变项,我们以小时为测量单位,简称为时数。我们进一步假设,博士生每多下一小时工夫,即工作时数增加一个单位,做出完美博士论文的概率就增加万分之一,即0.0001;相反,博士生每少下一小时工夫,即工作时数减少一个单位,做出完美博士论文的概率就减小万分之一。假定一个博士生一共投入9999小时,那么他做出完美博士论文的概率就到了0.9999。我们画个散点图,以从1到9999的工作时数为横轴,以完成博士论文的概率为纵轴(从0.0001到0.9999),我们会得到一条标志这两个变量正相关的斜线。
但是,这样的线性回归有两个问题。第一,完美永远达不到,所以上面的研究假定不成立。现实中,随着博士生工作时间的增加,他会越来越接近完成一部完美的博士论文,但永远达不到完美。可是,如果我们做简单的线性回归,一定得出结论,就是如果博士生工作一万小时,他做出完美博士论文的概率是1。第二,更麻烦的问题是,如果博士生工作超过一万小时,他做出完美博士论文的概率大于1,而概率不可能大于1。
把概率转换成发生比的自然对数,可以让我们避开这个问题。我们仍然以写博士论文为例子。为了简化,我们把极小概率界定为0.0001(万中有一,万一),把极大概率界定为0.9999(万仅一失)。这时,情况就简单了。极小概率是0.0001,发生比是0.0001(0.0001/0.9999),0.0001的自然对数是-9.21;随机概率是0.5(五五开),发生比是1(0.5/0.5),1的自然对数是0;极大概率是0.9999(万仅一失),发生比是9999(0.9999/0.0001),9999的自然对数是9.21。我们画个散点图,以从1到9999的工作时数为横轴(自变量),以写出完美博士论文的发生比的对数(从-9.21到9.21)为纵轴(因变量),我们会得到一条标志这两个变量之间关系的S型曲线。根据这个分析结果,我们可以预测,随着博士生工作时间的增加,他会越来越接近完成一部完美的博士论文,但他永远达不到完美,这样我们就避免了逻辑上荒谬的(不合逻辑的)预测。
为了更直观地理解把概率转换成发生比的自然对数有什么神效,我们以从0.0001到0.9999的概率为纵轴,以与这个区间的概率相对应的发生比的自然对数为横轴,做个散点分布图,得到的是一条漂亮对称的S型曲线,这就是统计学教材中说的“S型”曲线。
一句话,把概率转换成发生比的自然对数,可以帮我们避免逻辑荒谬。这个分析工具对于主要分析二分因变量的社会科学学者有救驾之功,所以我戏称之为“曲线救国”。
联系客服