初学者难免困惑于计量经济学中诸多的 “条件” 与 “无条件”,比如条件概率与无条件概率,条件分布与无条件分布,条件期望与无条件期望,条件方差与无条件方差,条件中位数与无条件中位数,条件分位数与无条件分位数。这些 “条件” 与 “无条件” 的概念,究竟有什么区别与联系,在实践中又该如何应用呢?本文将为你逐一辨析。
条件概率 vs 无条件概率
什么是概率?简单说,概率(probability)就是在大量重复试验下,随机事件发生的频率趋向的某个稳定值。比如,记随机事件 “下雨” 为
,则其发生的概率一般记为 。“无条件概率”(unconditional probability)其实就是我们一般所说的概率,只是为了与 “条件概率” 相区别,有时才强调它是 “无条件的”。事实上,计量经济学更关心条件概率。比如,记事件 “出太阳” 为
,则在出太阳的前提条件下降雨的 “条件概率” (conditional probability) 可定义为其中,
为与同时发生的概率,参见下面的维恩图(Venn diagram)。在此图中,矩形的方框表示整个世界(包括所有可能的随机试验结果,即样本空间),不妨将其面积标准化为 1。圆形
的面积即为事件 发生的(无条件)概率,而圆形 的面积则为事件 发生的(无条件)概率。考虑在给定
发生情况下,发生的条件概率 。此时,世界所处的状态只能是,而 之外的状态均为不可能。进一步,在 发生的情况下,如果 也发生,则表明 与 同时发生,故为集合 与集合 的交集,即 。因此,将此交集的概率 除以 “全集” 的发生概率 ,即为在给定 发生情况下,发生的条件概率。在实践中,究竟应该使用(无条件)概率还是条件概率呢?看一个简单例子就能明白。
比如,假设股市崩盘的(无条件)概率为万分之一;而在经济陷入严重萧条的情况下,股市崩盘的条件概率为百分之一。此时,如果已知经济已陷入严重萧条,你会使用哪种概率来预测股市崩盘的可能性呢?如果仍使用万分之一的无条件概率,就显得过于僵化,因为既然经济已经严重萧条,自然应将此条件考虑在内,而使用百分之一的条件概率。
由此可知,无条件概率是仅在你对世界的状态一无所知时,才使用的一种粗糙度量。而如果已知世界处于某种状态(比如,事件
已经发生),则条件概率提供了对于随机事件 发生可能性的更为细致而精确的度量。事实上,无条件概率可看成是条件概率的加权平均,而权重就是每种 “条件” 发生的概率,这便是概率统计中的 “全概公式”(law of total probability):
其中,
为完备事件组,即这些随机事件互相排斥,但必然有某个发生。条件分布 vs 无条件分布
通常使用概率分布来描述随机变量的取值特征。以一维的连续型随机变量
为例(的取值可为任意实数),其概率密度函数 (probability density function,简记 pdf) 为非负函数 满足:参见下图:
类似地,二维连续型随机向量
的联合密度函数 (joint pdf) 为非负函数满足:二维随机向量的联合密度函数
就像倒扣的草帽,参见下图。落入平面某区域 的概率就是此草帽下在区域 之上的体积。条件分布又是怎么回事呢?比如,考虑在
条件下 的条件分布,记为 或 。直观上,此条件分布相当于在 “草帽” (联合密度函数) 上 的位置垂直地切一刀所得的截面,参见下图。在此,有一个技术细节,即由于
为连续型随机变量,事件 发生的概率为 0,应如何计算 的条件概率密度 (conditional pdf)?解决方法是,考虑 附近的小邻域 ,计算在 条件下 的概率分布,然后让,则可证明条件密度函数为
其中,
计量经济学为何如此关心给定
情况下 的条件分布 呢?这是因为,实证研究主要关心 对 的作用,而此信息很多体现在条件分布 中,即随着 的取值变化,的条件分布将如何变化。以 Stata 自带的数据集 auto.dta 为例。比较汽车重量 weight 的无条件分布,与在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。
. sysuse auto
. kdensity weight
此命令将画变量 weight 的核密度图(kernel density),即对其概率密度函数的估计,相当于光滑版的直方图。
从上图可知,变量 weight 的(全样本)无条件分布呈双峰形状。下面考察在给定为外国车(虚拟变量 foreign = 1)的情况下,weight 的条件分布。
. kdensity weight if foreign
由上图可知,在给定外国车(虚拟变量 foreign = 1)的情况下,变量 weight 的(子样本)条件分布呈单峰形状。为便于比较,将以上两个图画在一起。
. twoway kdensity weight || kdensity weight if foreign, lp(dash)
其中,选择项 “lp(dash)” 表示将外国车 weight 的核密度图用虚线(dash)来画。
在上图中,实线为全样本的无条件分布,而虚线则为外国车的条件分布,可见二者差别之大。为何外国车的 weight 分布为单峰,而全部车的 weight 分布变为双峰?原因很简单,因为美国国产车的 weight 分布也是单峰,但山峰的位置不同。下面将外国车与国产车的两个条件分布画在一起:
. twoway kdensity weight if foreign || kdensity weight if !foreign, lp(dash)
显然,相对于外国车,美国国产车的车身重量分布更偏向右边,说明美国车通常更重些(与常识相符)。
条件期望 vs 无条件期望
当然,要把握整个概率分布并不容易,故常使用随机变量的数字特征,比如期望。假设连续型随机变量
的概率密度函数为 ,则其期望(expectation)为直观上,求期望就是对
进行加权平均,而权重为其概率密度(取值可能性)。显然,在上式的积分结果中,已将 积掉,故 只是一个常数,也就是 “无条件期望”(unconditional probability)。如果理解了条件分布,那么条件期望就容易理解了。其实,条件期望(conditional expectation)不过是条件分布的期望而已,简称 “条件期望” 。在给定
的情况下,的条件期望可表达为在上式中,由于
已被积分积掉,故 只是 的函数,称为 “条件期望函数”(conditional mean function),参见上文的条件分布图示(图中假设条件期望函数为 的线性函数)。事实上,计量经济学经常估计的回归函数(regression function),正是在给定解释变量
(可以是向量)情况下的条件期望函数。这也凸显了条件期望函数在计量经济学的核心地位。仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)期望与条件期望。
. sum weight
. sum weight if foreign
其中,变量 weight 的(全样本)无条件期望为 3019.459,而(外国车子样本)的条件期望为 2315.909,有很大区别。由于外国车通常更轻些,故外国车weight 的条件期望也低于 weight 的(全样本)无条件期望。
关于条件期望与无条件期望的关系,有如下重要的迭代期望定律 (Law of iterated expectation):
直观上,这意味着(左边的)无条件期望等于(右边的)条件期望
之加权平均,而权重为条件 “ ” 的概率(取值可能性),证明参见陈强(2014,2015)。条件方差 vs 无条件方差
如果期望是寻找随机变量的中心位置(或集中趋势),方差则为对此中心位置的偏离程度之度量。连续型随机变量
的方差(variance)可写为显然,方差越大,则随机变量取值的波动幅度越大。在上式中,方差也是一个常数,即 “无条件方差”(unconditional variance)。
另一方面,条件方差(conditional variance)则为条件分布的方差,简称条件方差;其数学表达式为
在上式中,
已被积分积掉,故条件方差 也只是 的函数,称为 “条件方差函数” (conditional variance function)。在上文的条件分布图示中,较为矮胖之分布的方差较大,而较为高瘦之分布的方差较小,故存在 “条件异方差”(conditional heteroskedasticity),常简称 “异方差”。
仍以数据集 auto.dta 为例,考察变量 weight 的(无条件)方差与条件方差。
. sum weight,detail
. sum weight if foreign,detail
由以上结果可知,变量 weight 的(全样本)无条件方差为 604029.8,而(外国车子样本)的条件方差仅为 187492,有很大区别,即美国国产车的车身重量波动幅度更大。
在计量经济学中,回归方程的扰动项存在异方差是比较普遍的现象。比如,在企业数据中,大企业与小企业的扰动项之波动幅度可能很不相同。另一方面,计量经济学常用的大样本理论(large sample theory)一般假设样本数据为 “严格平稳过程”(strictly stationary process),即概率分布不随着时间推移而改变,故其方差也是常数。平稳过程的假设是否与异方差现象矛盾呢?
要解决此表面上的 “矛盾”,关键在于认识到,计量经济学所说的异方差一般均指 “条件异方差”(conditional heteroskedasticity),即条件方差不同,而非“无条件异方差”(无条件方差不同)。因此,条件异方差与平稳过程的假定其实并不抵触。平稳过程只是保证在给定解释变量的情况下,条件方差函数的函数形式(functional form)
相同,但此条件方差的具体取值则仍取决于解释变量 的取值,故可以有所不同。显然,在已知解释变量样本观测值的条件下,真正起作用的应该是条件方差,而非(无条件)方差。在金融中常用的自回归条件方差模型(Autoregressive Conditional Heteroskedastiticy,简记 ARCH)及其推广形式 GARCH 模型,就是以自回归形式来定义条件方差函数,以此刻画金融市场的波动性集聚(volatility clustering)现象。
条件中位数 vs 无条件中位数
明白了条件期望与无条件期望、以及条件方差与无条件方差的区别,对于条件中位数与无条件中位数的区别也可迎刃而解。
给定随机变量
的无条件分布,则其中位数(median),即无条件中位数(unconditional median),指的是比它更小的概率正好等于比它更大的概率,皆为二分之一。换言之,中位数正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下,故也称为50%的百分位数(50% percentile):另一方面,条件中位数(conditional median)则为条件分布的中位数,即条件中位数正好将条件分布分为相等的两部分。仍以数据集 auto.dta 为例,从以上结果可知,变量 weight 的 (无条件) 中位数为 3190,而条件中位数则为 2180,也有明显不同。
条件分位数 vs 无条件分位数
中位数的概念很容易推广到一般的分位数(quantile)。比如,给定随机变量
的无条件分布,则随机变量 的10%(无条件)分位数,记为 ,可以定义为因此,10%分位数
把总体分为两部分,其中比 更小的那部分占总体的比重正好为10%。推而广之,随机变量 的 分位数(qth quantile),可以定义为另一方面,在给定
情况下,的条件分布 之分位数,记为,则称为 “条件分位数”(conditional quantile)。仍以数据集 auto.dta 为例,从前面结果可知,变量 weight 的(无条件)10%分位数为 2020,而其10%条件中位数为 1930。正如条件期望
是 的函数,条件分位数 也是解释变量 的函数,称为 “条件分位数函数”(conditional quantile function)。而对于条件分位数函数 的估计,则为近年流行的 “分位数回归”(quantile regression),其优点在于可以更全面地刻画条件分布 的特征(可考虑感兴趣的不同分位数),而且不像 OLS 回归那样容易受极端值(outlier)的影响。总之,在计量经济学中,当 “条件” 遇到 “无条件”,几乎总是 “条件” 胜出,因为“条件” 意味着给定了某种状态,故更有信息量,可以对世界进行更为准确而精细的度量。
参考文献
陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。
联系客服