摘要
在一个民主社会中, 政府实施的政策项目需要得到准确的评估。但是, 政策参与效应的估计需要找到一个“反事实”的比较组, 并且有效消除参与的选择性偏差。本文针对倾向得分匹配法要解决的根本问题、基本思路与方法运用、与其他方法的比较三个方面进行评述, 揭示了这一方法在评估政策项目效应中的意义。(来源:《中国行政管理》,作者丨胡永远、周志凤)
政府经常需要实施针对某些特定人群的政策项目, 如针对失业人群的免费培训,或针对贫困阶层的扶贫资助等。然而, 在一个民主体制下, 政府实施特定政策项目受到许多约束。一个约束是来自于财政压力, 因为许多政策项目的实施需要花费巨大的资金,因此, 有效的财政资金究竟如何在众多的政策项目中进行最优配置, 需要比较各个政策项目的实际效果;另一个约束来自于选民的压力, 如果政府的政策项目达不到预期效果,那么,选民、纳税人就会质疑政府的能力和做法。无论是哪一种约束, 都要求政府对政策项目进行科学评估, 并明确地回答:政策项目是否有效?政策项目的参与者是否受益?
对政策项目的评估有多种形式。从时间上分, 可以分为事前、事中和事后评估;从评估类别看,可以包括成本—收益分析、参与效应分析。事前和事中评估主要是预测和过程性评估,项目的效应并没有完全显现;成本—收益分析是最佳的评估形式,但是,政策项目的收益尤其是社会收益通常难以计量。因此, 以事后评估为基础的项目参与效应(Treatment effect)估计,是现今估计政策项目实施效果的基本方法。这种方法要回答的问题是:究竟参与项目是否促进了参与者的产出如工资、收益?在多大程度上促进了产出提高?
然而, 要科学地估计政策项目的参与效应, 面临一些难题。近30年来, 统计学家和计量经济学家们为此做出了巨大努力, 提出了一些解决政策项目参与效应估计的定量方法, 其中,倾向得分匹配法是目前在公共政策分析、社会项目评估过程中广泛采用的方法。鉴于该方法目前尚未被国内公共管理领域学者所熟悉, 本文对这一方法要解决的根本问题、解决问题的基本思路与具体运用、这一方法与其他方法的比较三个方面进行评述。
我们从一个例子开始。假设政府为失业者实施补贴培训项目, 政府要求你去评估该项目在帮助失业者就业和获得更高工资方面的效果。你希望检验的假设是:接受培训的人比那些不接受培训的人处境要好。
假设你有所有工人的工资数据, 其中一些人已参与了培训。你期望, 接受培训个体的平均工资与未接受培训个体工资的差为正,也就是说,希望参与项目的效应为正。但结果可能令你失望, 两者之差可能为负,也就是说,接受培训的人工资更低!难道是培训减少了工资?你怎么将这个结果解释给政策制定者?[1]
那么, 一种可能是, 接受培训的工人和那些不培训的工人, 不是真实同类, 不可比。他们可能在年龄、教育、工作经验和其他方面不相同。但是, 怎样找到一组可比的对象?一种可能的解决方法就是, 控制住样本工人的教育、年龄、性别、种族等这些可能影响工资的属性。这是标准的计量经济学方法:加入控制变量, 可以减少遗漏变量带来的偏差。但是, 如果个体参与培训的决策本身又取决于其教育、年龄等控制变量, 又该怎么办?
上面的例子涉及到如何对某一政策项目的效果进行科学评估的问题。许多政策项目是针对特定个体、行业或地区的, 具有特定的指向性。比如说, 政府针对就业困难人员开展的免费就业培训、针对特定地区开展的扶贫项目等。假设我们拥有两个组的样本数据, 一组是 “参与组” (Treatment Group) , 表示参加了该项目;另一组是 “控制组” (Control Group) , 表示没有参与该项目。 形式上, 定义Y0是不参与的产出, Y1是参与项目的产出, D={0, 1}是参与变量, 也就是说D=1表示个体接受参与, 0则相反。我们真正感兴趣的是, 一个参与项目的个体, 如果与他 (她) 不参与相比, 是否结果更好? 由于每个个体有不同的结果, 所以, 我们一般关注样本的均值差, 即 “参与者的平均参与效应”
———ATT (Av- erage Treatment Effect on the Treat) :
E[y1|D=1]-E[y0|D=0]=a (1)
也就是说,政策效应评估的本质, 是要比较同一个体参与某一项目的收益和他 (她) 未参与项目的收益的差。然而, 现实中我们只能观察到同一个体的一面:对于一个参与项目的个体, 我们就只能观察到参与的收益, 不能观察到他未参与项目的收益;反之则相反。我们把它未参与项目的收益, 称为反事实 (Counterfactual) , 也就是说, 不能在现实中被观察到。因此, 我们要努力寻找与参与者相同或相类似的反事实样本。所以, 如何找到一组可信的反事实样本, 是政策效应评估要解决的第一个基本问题。
政策效应评估的另一个问题是, 个体是否参与某一项目往往不是随机的, 而是自我选择 (Self-selection) [2]的结果, 因此, 造成了选择性偏差 (Selection Bias) [3], 需要进行纠正。例如, 在一个最简单的回归方程中, 如果参与变量D={0, 1}是个体自选择的, 取决于个体的 “能力”, 而 “能力”不可观测, 被归入随机误差项中, 这时, 解释变量D就与误差项相关了, 这样, 估计的系数就不是一致性的估计。因此, 如何消除参与项目的自选择偏差, 是政策效应评估要解决的第二个基本问题。
为了解决反事实和个体自选择问题, 我们要看手头的数据满足什么样的统计假设。按照统计假设的严格程度划分, 从最强到最弱的假设条件包括:随机试验、基于可观测变量的选择性偏差、基于不可观测变量的选择性偏差三个大类。
如果数据是随机的社会实验 (Social Experiment) 数据, 那么, 政策项目效应的计算是相对简单的, 我们只要简单比较参与组和未参与组的平均产出的差即可, 因为数据的随机性确保了未参与组可信地作为参与组的反事实。在不能随机化的条件下, 如果假设选择性偏差仅仅基于个体的可观察特征, 那么, 可以利用倾向得分匹配法 (Propensity Score Matching) 解决; 如果考虑到不可观察特征对参与的影响, 那么,有两种常用的方法, 其中, “双差分法” (Difference-in-Differ- ence) 假定, 不可观察的选择是存在的, 但却是随时间不变的 (Time invariant) , 这样参与效应可以用参与组、控制组的前、后产出对比得出;另一种方法是采用工具变量法, 通过找到一个工具变量———它影响 “参与”但不影响 “产出”———来纠正不可观察特征对参与项目的选择性偏差, 其中局部平均参与效应 (The Local Average Treatment Effect, LATE) 和不连续设计 (Regression Discontinuity Designs) 估计, 是工具变量法运用的两个重要领域。
总之, 政策项目参与效应评估的关键问题, 是要找到一个 “好”的 “反事实”, 并且消除选择性偏差。对于绝大多数研究来说, 因为手头的数据一般是调查数据, 所以基于可观察特征的选择性偏差, 是一个合理的假定, 因此基于这一基本假定的倾向得分匹配法是估计项目参与效应的重要方法。
二、倾向得分匹配法的思想与方法运用
Rosenbaum和Rubin于1983年提出了倾向得分的概念。倾向得分 (Propensity Score) 定义为 “个体在一组既定的协变量下, 接受某种参与 (Treatment) 的可能性”。它要解决的问题是, 因为如果针对多个可观察特征X进行对比匹配非常困难, 所以, 可将多维协变量X用一个一维变量———倾向得分P (x) 来代替, 这样, 研究者就只需要对单一的倾向得分变量进行匹配, 从而大大减少了匹配的困难。[4]倾向得分定义为:
P (D=1|X) =P (x) (2)
这一方法的思路是:如果两个个体的倾向得分相同, 其中一个在接受项目的参与组 (Treatment Group) , 另一个在未参与的控制组 (ControlGroup) , 就可以将控制组个体的产出Y0作为 “参与个体”的反事实(counterfac- tual) , 从而, 参与者的平均参与效应ATT就可以通过下式估计得到:
具体估计过程, 可以采用Becker和Ichino等STA- TA程序进行估计。[5]估计的基本过程如下:第一步, 计算倾向得分、确定共同支撑区域 (Region of Common Support) 、分区检测平衡性, 要求倾向得分和各个协变量在各区都要平衡。第二步, 分别使用不同的配对方案估计参与结果。然而, 关键的估计问题涉及到以下五个方面:
当参与变量是二值变量 (取0, 1) 时, 可以采用logit或者probit模型估计倾向得分, 这两者没有本质区别, 但是如果参与变量是多元值时, 使用probit模型更合适, 因为多元logit模型的前提假设比probit要强。
倾向得分匹配法要求在控制了协变量时, 产出变量与 “参与项目”无关, 这称为条件独立假定(Conditional Independence Assumption, CIA) , 所以, 协变量的选取非常关键, 遗漏重要协变量可能会导致获得的倾向得分不正确, 导致估计的结果有偏。[6]一般情况下, 选取协变量是根据理论或经验证据来选择。
在挑选协变量时,要遵循三个原则:第一,与参与变量和产出结果有关的变量都应包括在模型中, 以免遗漏变量导致结果有偏;第二,与参与变量无关但与产出有关的变量应该加入到模型中, 以使在不增加偏差的同时, 降低估计结果的方差; 第三, 与参与变量有关但与产出结果无关的变量不要放入模型中, 否则使估计结果方差增大但却不能减小偏误。[7]总之, 要尽量把所有与估计结果相关的可观测变量都考虑进去。[8]
2.匹配方法选择
因为倾向得分是连续的, 参与组与控制组的倾向得分不可能精确地相等, 所以需要采取相应方法来对匹配进行规范。常用的匹配方法有三种, 即最近相邻匹配、 域阀和半径匹配、核匹配法。
最近相邻匹配 (nearest-neighbor-matching) 方法, 选择控制组中与参与组个体倾向得分差异最小的个体, 作为自己的比较对象。该方法的优点是:参与组的信息得以充分使用;缺陷是由于不舍弃任何一个参与组个体, 很可能在有些配对组中, 两者的特性相差很远, 可比性不强, 难以完全消除自选择作用。
域阀和半径匹配 (Caliper and Radius matching) 方法和最近相邻法匹配法的估计形式一致, 但它对相邻关系加入了一个公差水平, 对匹配程度的要求更高, 即对参与项目和未参与项目个体两者特性差异的可容忍度进行界定, 超过这个范围就认为两者不具有可比性。域阀 (Caliper) 匹配法的思想是:每一个参与者只有一个控制者, 考虑到|Pi-Pj|≤ε, 如果是公差范围内的最近邻居则WN0=1, 否则为0, 其中, WN0是权重。因此, 估计只限定于这些可以找到有效参与的参与样本。半径 (Ra- dius) 匹配的思想是:每一个参与者有多个控制者, |Pi-Pj|≤Y, 是对比的半径。这里WN0=1/Ni, 是参与个体i的匹配数量。在半径匹配法里, 所有在半径内的控制者样本都会使用到。它的目的是通过减少控制者之间的噪声 (避免控制组之间特性差异太大) 来改善效率。这两种方法虽然是对相邻匹配法的改良, 但仍然存在缺陷, 即公差水平难以抉择:如果公差水平过小,具有可比较性的配对组越少, 真正使用的样本越少;如果公差水平过大, 导致配对组增多, 但同时配对组的特性差异扩大, 这使得自选择的处理力度下降。
核匹配法 (Kernel Matching) , 使用所有未参与的个体作为某个参与个体的反事实 (counterfactual) Y0。每一个参与者有多个比较对象, 权重随着距离 (|Pi-Pj|) 的减小而增大。相对于其他匹配法而言, 核匹配法减少了估计方差, 但却增加了估计偏误。
倾向得分匹配的三种方法各有特点, 不能说哪种方法一定优于另一种方法, 这可以取决于参与者和对比的未参与者的个体数量对比:如果配对的未参与者的数量远远多于参与者, 那么最近相邻法的匹配数量和质量都有很好的保证, 最为适合;如果配对的参与者的数量远远多于未参与者的数量, 那么匹配信息太少, 这时就要把信息的数量放第一位, 而匹配的质量放第二位, 所以核匹配法是最佳选择;如果两组的数量相当, 或者差距不大, 那么, 选择哪一种方法都没有绝对的优势, 可以综合运用这三种方法来考察所估计效应的稳健性。如果是大样本数据的话, 这三种方法的结果应该是一致的。
在许多情况下, 要获得非参数估计法的一致标准差, 唯一可信的方法是自举法 (Bootstrap) 。自举法是上世纪80年代出现和发展起来的一种新型再抽样统计方法, 在统计各领域已有广泛应用。自举法实际上是在试验样本的基础上, 利用计算机生成的自助样本来估计未知分布的某种统计量的统计特性。
因为倾向得分匹配法不是以所有协变量为条件, 而是以倾向得分为条件进行匹配, 所以必须检验匹配程序是否可以平衡协变量在参与者和未参与者之间的分布, 确保模型使用的变量在经过匹配后不存在显著差异。如果匹配质量指标得不到满足, 则匹配不成功, 那么需要矫正匹配的方法, 如加入干扰项。如果这样做之后还是不满足, 那就可能是条件独立假定不满足, 就需要考虑使用其他的估计方法了。常用的三个匹配质量指标是: 标准差、调整的R2检验和联合F检。
倾向得分匹配法的估计程序依赖于条件独立假定CIA的成立, 即所有的协变量在两组之间的分布是平衡的。如果存在不可观测变量同时影响参与决策和产出, 那么就会出现 “隐藏性偏差”(Hidden bias) 。出现 “隐藏性偏差”时, 估计的参与效应是不稳健的。这时, 可以采用敏感性检验。其目的是测算多大的隐藏性偏差会改变估计结果。Rosenbaum提出的模型[9], 采用优势比 (odds ratio) 的区间比较, 来判断估计结果是否对不可观察变量敏感, 即是否高估或低估了政策参与效应。
三、倾向得分匹配法与其他方法比较
首先, 与社会实验法相比, 倾向得分匹配法实际上是创造了一个准实验。在社会实验那里, 随机化确保了参与者与比较组的所有特征 (包括可观察和不可观察特征) 的分布是一样的, 其倾向得分是一个常数, 因为每个个体获得同样的参与概率。但与社会实验不同, 直觉上看, 倾向得分匹配法要做的, 是创造一个社会实验的可观察类别, 在那里, 基于协变量X, 参与者与比较者之间的条件概率是一致的, 也就是说, 每个个体有同样的参与概率(因为个体特征相同) 。
其次, 与标准计量回归方法相比, 倾向得分匹配法不是通过回归而是通过非参数对比匹配得到参与效应的结果。标准回归方法强加了估计的函数形式假定, 如线性假定, 而倾向得分匹配法不需要一个参数模型, 因此, 倾向得分匹配法可方便地检验那些可能存在复杂交互项效应的情形。在样本数据利用方面, 普通的回归方法一般利用全部样本来估计, 而在倾向得分匹配法中, 研究者通常要定义共同支撑区域, 也就是说, 要剔除掉那些不在共同支撑区域内的样本。最大的区别在于, 如果采用标准的最小二乘回归, 必须确保所有解释变量的外生性, 但根据我们前面的假定, 参与变量D往往是自选择的结果, 也就是说, 取决于协变量X, 这样, 简单的OLS估计, 不会是一致的估计。
最后, 倾向得分匹配法与工具变量法的比较。与倾向得分匹配法假设自选择基于可观察的个体特征不同, 工具变量法假定自选择基于不可观察的个体特征, 因此, 从假设的合理性和估计的有效性来看, 工具变量法比倾向得分匹配法更优。然而, 寻找到合适的工具变量是一个难题;而且,如果寻找到的工具变量是一个弱工具, 那么, 估计的结果是有偏的。
因此, 总体来看, 随机的社会实验法通过随机决定个体是否能 “参与”项目, 使个体特征X (包括可观察和不可观察特征) 不能影响参与变量D, 从而获得真实的效应估计。但是, 社会实验法存在政治、伦理上的可行性问题;工具变量法同时考虑到了个体可观察和不可观察特征对 “参与”项目的影响, 但是找到合适的工具变量是一个很大的难题;双差分法则需要有相同样本至少前后两期的数据。所以, 如果基于估计的有效性, 社会实验法和工具变量法均优于倾向得分匹配法。然而, 基于数据可得性的现实和研究的可行性来看, 倾向得分匹配法方法估计政策效应是一种可行且可靠的准实验方法。
联系客服