计量经济学中的“条件”与“无条件”

初学者难免困惑于计量经济学中诸多的 “条件” 与 “无条件”，比如条件概率与无条件概率，条件分布与无条件分布，条件期望与无条件期望，条件方差与无条件方差，条件中位数与无条件中位数，条件分位数与无条件分位数。这些 “条件” 与 “无条件” 的概念，究竟有什么区别与联系，在实践中又该如何应用呢？本文将为你逐一辨析。

条件概率 vs 无条件概率

什么是概率？简单说，概率（probability）就是在大量重复试验下，随机事件发生的频率趋向的某个稳定值。比如，记随机事件 “下雨” 为

，则其发生的概率一般记为

。“无条件概率”（unconditional probability）其实就是我们一般所说的概率，只是为了与 “条件概率” 相区别，有时才强调它是 “无条件的”。

事实上，计量经济学更关心条件概率。比如，记事件 “出太阳” 为

，则在出太阳的前提条件下降雨的 “条件概率” (conditional probability) 可定义为

其中，

为

与

同时发生的概率，参见下面的维恩图（Venn diagram）。

在此图中，矩形的方框表示整个世界（包括所有可能的随机试验结果，即样本空间），不妨将其面积标准化为 1。圆形

的面积即为事件

发生的（无条件）概率，而圆形

的面积则为事件
发生的（无条件）概率。

考虑在给定

发生情况下，

发生的条件概率。此时，世界所处的状态只能是

，而

之外的状态均为不可能。进一步，在

发生的情况下，如果

也发生，则表明

与

同时发生，故为集合

与集合

的交集，即

。因此，将此交集的概率

除以 “全集”

的发生概率

，即为在给定

发生情况下，

发生的条件概率。

在实践中，究竟应该使用（无条件）概率还是条件概率呢？看一个简单例子就能明白。

比如，假设股市崩盘的（无条件）概率为万分之一；而在经济陷入严重萧条的情况下，股市崩盘的条件概率为百分之一。此时，如果已知经济已陷入严重萧条，你会使用哪种概率来预测股市崩盘的可能性呢？如果仍使用万分之一的无条件概率，就显得过于僵化，因为既然经济已经严重萧条，自然应将此条件考虑在内，而使用百分之一的条件概率。

由此可知，无条件概率是仅在你对世界的状态一无所知时，才使用的一种粗糙度量。而如果已知世界处于某种状态（比如，事件

已经发生），则条件概率

提供了对于随机事件

发生可能性的更为细致而精确的度量。

事实上，无条件概率可看成是条件概率的加权平均，而权重就是每种 “条件” 发生的概率，这便是概率统计中的 “全概公式”（law of total probability）：

其中，

为完备事件组，即这些随机事件互相排斥，但必然有某个

发生。

条件分布 vs 无条件分布

通常使用概率分布来描述随机变量的取值特征。以一维的连续型随机变量

为例（

的取值可为任意实数），其概率密度函数 (probability density function，简记 pdf) 为非负函数

满足：

参见下图：

类似地，二维连续型随机向量

的联合密度函数 (joint pdf) 为非负函数

满足：

二维随机向量的联合密度函数

就像倒扣的草帽，参见下图。落入平面某区域

的概率就是此草帽下在区域

之上的体积。

条件分布又是怎么回事呢？比如，考虑在

条件下

的条件分布，记为

或

。直观上，此条件分布相当于在 “草帽” (联合密度函数) 上

的位置垂直地切一刀所得的截面，参见下图。

在此，有一个技术细节，即由于

为连续型随机变量，事件

发生的概率为 0，应如何计算

的条件概率密度（conditional pdf）？解决方法是，考虑

附近的小邻域

，计算在

条件下

的概率分布，然后让

，则可证明条件密度函数为

其中，

为随机变量

的边缘密度（marginal density），即

作为一维随机变量的概率密度。直观上，条件密度的公式与条件概率的定义式类似。

计量经济学为何如此关心给定

情况下

的条件分布

呢？这是因为，实证研究主要关心

对

的作用，而此信息很多体现在条件分布

中，即随着

的取值变化，

的条件分布将如何变化。

以 Stata 自带的数据集 auto.dta 为例。比较汽车重量 weight 的无条件分布，与在给定为外国车（虚拟变量 foreign = 1）的情况下，weight 的条件分布。

. sysuse auto

. kdensity weight

此命令将画变量 weight 的核密度图（kernel density），即对其概率密度函数的估计，相当于光滑版的直方图。

从上图可知，变量 weight 的（全样本）无条件分布呈双峰形状。下面考察在给定为外国车（虚拟变量 foreign = 1）的情况下，weight 的条件分布。

. kdensity weight if foreign

由上图可知，在给定外国车（虚拟变量 foreign = 1）的情况下，变量 weight 的（子样本）条件分布呈单峰形状。为便于比较，将以上两个图画在一起。

. twoway kdensity weight || kdensity weight if foreign, lp(dash)

其中，选择项 “lp(dash)” 表示将外国车 weight 的核密度图用虚线（dash）来画。

在上图中，实线为全样本的无条件分布，而虚线则为外国车的条件分布，可见二者差别之大。为何外国车的 weight 分布为单峰，而全部车的 weight 分布变为双峰？原因很简单，因为美国国产车的 weight 分布也是单峰，但山峰的位置不同。下面将外国车与国产车的两个条件分布画在一起：

. twoway kdensity weight if foreign || kdensity weight if !foreign, lp(dash)

显然，相对于外国车，美国国产车的车身重量分布更偏向右边，说明美国车通常更重些（与常识相符）。

条件期望 vs 无条件期望

当然，要把握整个概率分布并不容易，故常使用随机变量的数字特征，比如期望。假设连续型随机变量

的概率密度函数为

，则其期望（expectation）为

直观上，求期望就是对

进行加权平均，而权重为其概率密度（取值可能性）。显然，在上式的积分结果中，已将

积掉，故

只是一个常数，也就是 “无条件期望”（unconditional probability）。

如果理解了条件分布，那么条件期望就容易理解了。其实，条件期望（conditional expectation）不过是条件分布的期望而已，简称 “条件期望” 。在给定

的情况下，

的条件期望可表达为

在上式中，由于

已被积分积掉，故

只是

的函数，称为 “条件期望函数”（conditional mean function），参见上文的条件分布图示（图中假设条件期望函数为

的线性函数）。

事实上，计量经济学经常估计的回归函数（regression function），正是在给定解释变量

（可以是向量）情况下的条件期望函数。这也凸显了条件期望函数在计量经济学的核心地位。

仍以数据集 auto.dta 为例，考察变量 weight 的（无条件）期望与条件期望。

. sum weight

. sum weight if foreign

其中，变量 weight 的（全样本）无条件期望为 3019.459，而（外国车子样本）的条件期望为 2315.909，有很大区别。由于外国车通常更轻些，故外国车weight 的条件期望也低于 weight 的（全样本）无条件期望。

关于条件期望与无条件期望的关系，有如下重要的迭代期望定律（Law of iterated expectation）：

直观上，这意味着（左边的）无条件期望等于（右边的）条件期望

之加权平均，而权重为条件 “

” 的概率（取值可能性），证明参见陈强（2014，2015）。

条件方差 vs 无条件方差

如果期望是寻找随机变量的中心位置（或集中趋势），方差则为对此中心位置的偏离程度之度量。连续型随机变量

的方差（variance）可写为

显然，方差越大，则随机变量取值的波动幅度越大。在上式中，方差也是一个常数，即 “无条件方差”（unconditional variance）。

另一方面，条件方差（conditional variance）则为条件分布的方差，简称条件方差；其数学表达式为

在上式中，

已被积分积掉，故条件方差

也只是

的函数，称为 “条件方差函数” （conditional variance function）。

在上文的条件分布图示中，较为矮胖之分布的方差较大，而较为高瘦之分布的方差较小，故存在 “条件异方差”（conditional heteroskedasticity），常简称 “异方差”。

仍以数据集 auto.dta 为例，考察变量 weight 的（无条件）方差与条件方差。

. sum weight,detail

. sum weight if foreign,detail

由以上结果可知，变量 weight 的（全样本）无条件方差为 604029.8，而（外国车子样本）的条件方差仅为 187492，有很大区别，即美国国产车的车身重量波动幅度更大。

在计量经济学中，回归方程的扰动项存在异方差是比较普遍的现象。比如，在企业数据中，大企业与小企业的扰动项之波动幅度可能很不相同。另一方面，计量经济学常用的大样本理论（large sample theory）一般假设样本数据为 “严格平稳过程”（strictly stationary process），即概率分布不随着时间推移而改变，故其方差也是常数。平稳过程的假设是否与异方差现象矛盾呢？

要解决此表面上的 “矛盾”，关键在于认识到，计量经济学所说的异方差一般均指 “条件异方差”（conditional heteroskedasticity），即条件方差不同，而非“无条件异方差”（无条件方差不同）。因此，条件异方差与平稳过程的假定其实并不抵触。平稳过程只是保证在给定解释变量的情况下，条件方差函数的函数形式（functional form）

相同，但此条件方差的具体取值则仍取决于解释变量

的取值，故可以有所不同。

显然，在已知解释变量样本观测值的条件下，真正起作用的应该是条件方差，而非（无条件）方差。在金融中常用的自回归条件方差模型（Autoregressive Conditional Heteroskedastiticy，简记 ARCH）及其推广形式 GARCH 模型，就是以自回归形式来定义条件方差函数，以此刻画金融市场的波动性集聚（volatility clustering）现象。

条件中位数 vs 无条件中位数

明白了条件期望与无条件期望、以及条件方差与无条件方差的区别，对于条件中位数与无条件中位数的区别也可迎刃而解。

给定随机变量

的无条件分布，则其中位数（median），即无条件中位数（unconditional median），指的是比它更小的概率正好等于比它更大的概率，皆为二分之一。换言之，中位数正好将总体分为两个相等的部分，一半在中位数之上，而另一半在中位数之下，故也称为50%的百分位数（50% percentile）：

另一方面，条件中位数（conditional median）则为条件分布的中位数，即条件中位数正好将条件分布分为相等的两部分。仍以数据集 auto.dta 为例，从以上结果可知，变量 weight 的 (无条件) 中位数为 3190，而条件中位数则为 2180，也有明显不同。

条件分位数 vs 无条件分位数

中位数的概念很容易推广到一般的分位数（quantile）。比如，给定随机变量

的无条件分布，则随机变量

的10%（无条件）分位数，记为

，可以定义为

因此，10%分位数

把总体分为两部分，其中比

更小的那部分占总体的比重正好为10%。推而广之，随机变量

的

分位数（qth quantile）

，可以定义为

另一方面，在给定

情况下，

的条件分布

之分位数，记为

，则称为 “条件分位数”（conditional quantile）。仍以数据集 auto.dta 为例，从前面结果可知，变量 weight 的（无条件）10%分位数为 2020，而其10%条件中位数为 1930。

正如条件期望

是

的函数，条件分位数

也是解释变量

的函数，称为 “条件分位数函数”（conditional quantile function）。而对于条件分位数函数

的估计，则为近年流行的 “分位数回归”（quantile regression），其优点在于可以更全面地刻画条件分布

的特征（可考虑感兴趣的不同分位数），而且不像 OLS 回归那样容易受极端值（outlier）的影响。

总之，在计量经济学中，当 “条件” 遇到 “无条件”，几乎总是 “条件” 胜出，因为“条件” 意味着给定了某种状态，故更有信息量，可以对世界进行更为准确而精细的度量。

参考文献

陈强，《高级计量经济学及Stata应用》，第2版，高等教育出版社，2014年。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。