打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
精确断点回归(RD)理论及评价

目录

  • 一、断点回归(Regression Discontinuity, RD)模型概述

  • 二、问题解决

    • 2.1问题引入

    • 2.2 PSM不适用

    • 2.3 DID不适用

  • 三、数学原理

    • 3.1回归思想

    • 3.2考虑高次项

    • 3.3非参数回归

    • 3.4带宽的选择

    • 3.5是否包含协变量

    • 3.6“内生分组”问题

    • 3.7稳健性检验

  • 四、模型特点

    • 4.1优点

    • 4.2缺点

一、断点回归(Regression Discontinuity, RD)模型概述

断点回归(RD),一种样本选择和数据生成的机制,通过这种机制构造出一个局部随机试验,得以在反事实下进行因果的推断。

断点回归设计是一种准自然实验,基本思想是存在一个连续变量,该变量能决定个体在某一临界点两侧接受政策干预(或说接受处理)的概率,由于x在该临界点两侧是连续的,因此个体针对x的取值落入该临界点任意一侧是随机发生的,即不存在人为操控使得个体落入某一侧的概率更大,则在临界值附近构成了一个准自然实验。断点回归就是利用靠近这一断点附近的样本值来有效估计处理效应。

更直接的说法,处理变量在某一点处出现了一个断点,使得断点的左右两侧得到处理的概率不同,从而影响了结果。断点回归包括精确断点回归和模糊断点回归。
精确断点回归(Sharp Regression Discontinuity, SRD):特征是断点x=c处,个体的处理概率从0跳跃到1。
模糊断点回归(Fuzzy Regression Discontinuity, FRD):特征是断点x=c处,个体的处理概率从a跳跃到b,其中0<a<b<1。

二、问题解决

2.1问题引入

我们现在来解决一个问题: 是否上大学 对于末来工资 的影响。假设是否上大学 完全取决于高考成绩 是否超过了 500 分。

经济学中, 我们经常估计某项目或政策实施后的效应, 比如政府推出的就业 培训项目。此类型的研究被成为 “项目效应评估”, 而项目效应也被称为处理效应。上述问题明显是解决 “是否上大学” 这一处理的效应, 记不上大学与上大学 的两种潜在结果分别为 , 需要得到 。

解决处理效应常用的计量方法包括: 倾向得分匹配 (Propensity Score Matching, PSM)、双重差分 (Differences-in-differences, DID) 和断点回归 (Regression Discontinuity, RD)。

2.2 PSM不适用

倾向得分的重叠假定:对于x的任何可能取值,都有 。即意味着倾向的得分的处理组与控制组的两个子样本存在重叠,这也是进行样本匹配的前提。重叠假设保证了处理组与控制组的倾向得分取值范围有相同的部分,如图2.1所示。

图2.1 倾向得分的共同取值范围


在此研究问题中, 处理变量 是连续变量 的确定性函数, 在给定 (高考分数) 的情况下, (是否接受大学教育) 唯一确定, 为 0 或 独 立于 , 满足倾向得分匹配的可忽略性原则。

但是该问题中是否接受处 理完全取决于高考分数是否超过了 500 分, 而不是对于 的任何可能取值,都由 的概率得到处理。此问题中控制组和处理组之间完全没有交集, 不满 足倾向得分匹配的 “重叠假设”, 因此对于此类问题不能使用倾向得分匹配的方 法来估计处理的效应。

2.3 DID不适用

再来看双重差分模型的隐含假设:

(1)平行趋势条件:处理组和控制组在没有政策干预的情况下,结果效应的趋势是一样的,也就是说在政策干预之前,处理组和控制组的结果效应的趋势是一样的;

(2)个体稳定性条件:政策干预值影响处理组,不会对控制组产生交互影响,即政策的干预不会产生外溢效应;

(3)线性形式条件:潜在结果变量同处理组和时间变量满足线性关系。


如果利用双重差分模型解决问题,我们注意到第一个假设:处理组和控制组在没有处理之前他们的结果效应趋势是一样的。思考一个问题:未来收入的大小在没有接受大学教育之前结果趋势是否一致?答案是否定的!高考分数不能绝对的反映个体的智商,但是拥有更高的高考分数的人往往在较大程度上反映了个体的勤奋程度,我们通常认为该类个体具有的特点对未来收入有正向的影响。通俗的说,对于高考分数在录取分数线以上的人,即使该类个体不接受大学教育,该类个体具有的其他特征也将使他们未来的收入与高考分数低于录取线的个体未来的收入有明显的差异。此时,双重差分模型也不再适用。

针对此类明显存在断点的问题,我们来研究一个新的模型对处理效应的进行估计——断点回归模型。

依可测变量选择的一种特殊情形,有时处理变量D_i完全由某连续变量是否超过某断点(cutoff point)所决定。据此进行分组的变量称为“分组变量”(assignment variable, forcing variable, running variable)。此时,处理变量为的函数,记为。由于在的某点处存在一个断点(discontinuity),这就提供了估计对因果效应的机会。此类型问题需要用断点回归的思想加以解决,具体的数学原理将在下一节详细叙述。

三、数学原理

3.1回归思想

对于是否接受大学教育对于未来工资的影响,假设是否上大学完全取决于高考成绩是否超过500分。超过500分即得到处理,概率为1;高考分数低于录取分数线的500分,则未能接受大学教育,处理概率为0。适用于精确断点回归,我们将利用精确断点回归模型来解决这个问题。下面详述精确断点回归的相关原理及思想。

由于处理效应 为随机变量, 我们往往关心其期望值, 即 “平 均处理效应” (Average Treatment Effect, 简记为 ATE), ATE 。

处理变量 是连续变量 的确定性函数, 在给定 的情况下, 唯 一确定, 记为 。由于 在 处存在一个断点, 对于高考成绩为 498 , 499,500 , 或 501 的考生, 可以认为他们在各方面 (包括可观测变量和不可观测 变量)都没有系统差异。他们高考成绩的细微差异只是由于 “上帝之手” 随机抽 样的结果 (考试成绩本身含随机因素一 “运气”), 导致成绩为 500 或 501 的考生 上大学 (进入处理组), 而成绩为 498 或 499 的考生落榜 (进入控制组)。因此, 由于制度原因, 彷佛对高考成绩在邻域 之间的考生进行了随机分 组, 可以一致地估计在 附近地局部平均处理效应 (Local Average Treatment Effect, LATE), 即:

其中, 与 分别表示从 500 的右侧与左侧取极限 (即右极限与左极限)。在上式的最后一步推导之中, 假设条件期望函数 与 为连续函数, 故其极限值等于函数取值。

更一般地, 断点可以是某个常数 , 而分组规则为:

假设在实验前, 结果变量 与 之间存在如下线性关系:

不失一般性, 假设 的处理效应为正, 则 与 之间就存在一个向 上跳跃(jump)的断点, 参见图 3.1。由于在 附近, 个体各方面均无系统差别, 故造成条件期望函数 )在此跳跃的唯一原因只可能是 的处理效应。基于此 逻辑, 在 处, 对 可将此跳跃视为因果效应。

图3.1 断点回归示意图 我们知道, 在方程中引入虚拟变量的效果就是在不同的子样本中产生不同的 截距项。因此, 为了估计此跳跃, 可将方程(3.3)改写为:

在上式中, 变量 为 的标准化, 使得 的断点为 0 。引入互动 项 是为了允许在断点两侧的回归斜率可以不同。对方程进行 OLS 回 归, 所得 就是在 处的局部平均处理效应(LATE)的估计量。

由于此回归存在一个断点, 故称为 “断点回归” 或 “断点回归设计”。由于 在断点附近仿佛存在随分组, 故认为断点回归是内部性比较强的一种准实验。可 以通过考察协变量在断点两侧的分布是否有差异来检验随机性质。但断点回归仅 推断在断点处的因果关系, 并不能推广到其他样本值, 故外部有限性受限。

3.2考虑高次项

使用方程(3.4)来估计精确断点回归, 存在两个问题。首先, 如果回归函数包 含高次项, 比如二次项 , 则会导致遗漏变量偏差。其次, 既然断点回归 是局部的随机实验, 则原则上只应使用断点附近的观测值, 但方程(3.4)却使用了 整个样本。为了解决这两个问题, 可在方程(3.4)中引入高次项 (比如二次型), 并限定 的取值范围为 :

其中, 为对 LATE 的估计量, 并可使用稳健性标准误来控制可能存在的异方差。

3.3非参数回归

上式并末确定 的取值, 而且仍然依赖于具体的函数形式。为此, 转向非参 数回归。与前面的参数回归相比, 非参数回归的优点在于不依赖于具体的函数形 式, 而且通过最小化匀方误差(MSE)来选择最优带宽 。

直观来看, 越小, 则偏差(bias)越小, 但离 很近的点可能很少, 导致方 差变大; 反之, 越大, 则方差越小, 但由于包含了离 较远的点导致偏差变 大。
最简单的非参数方法就是比较 在两个区间 与 的均值。

但 这种方法缺今效率, 且要求在两个区间有较多观测值。另一种非参数法方法为核 回归(kernel regression), 即以核函数计算权重, 对带宽 范围内的观测值进行加 权平均。但核回归的边界性质并不理想, 而我们关心的恰恰是回归函数在端点的 取值。为此, 一般推荐使用局部线性回归, 即最小化如丁目标函数:

其中, 为核函数。局部线性回归的实质是, 在一个,邻域 内进行加权最小二乘估计, 此权重由核函数来计算, 离 越近的点的权重就越大。针对断点回归, 较常用的核函数为三角核(triangular kernel)与矩形核(rectangular kernel, 即均匀核)。如果使用矩形核, 则为标准 OLS 回归, 等价于上文的参数 回归。此估计量也称为 “局部瓦尔德估计量' (local Wald estimator)。

3.4带宽的选择

下面考察最优带宽的选择。记 , 则 。Imbens and Kalyanaraman(2009)提出通过最小化两个回归函数在断点处的均方误差来选择最优带宽:

3.5是否包含协变量

另外,也可在方程(3.5)或(3.7)加入影响结果变量y_i的其他协变量,可通过Stata命令rd的选择项“cov(varlist)”来实现。

由于断点回归可视为局部随机实验,故是否包括协变量w_i并不影响断点回归估计量的一致性。加入协变量的好处在于,如果这些协变量对于被解释变量有解释力,则可以减少扰动项方差,使得估计更为准确。

然而,如果所加入协变量为内生变量,与扰动项相关,则反而会干扰对LATE的估计。

如果协变量在x=c处的条件密度函数也存在跳跃,则不宜将 全部归功于该项目的处理效应。

事实上,断点回归的隐含假设是:协变量w_i的条件密度函数在x=c处连续。为了检验此假设,可将中每个变量作为被解释变量,进行断点回归,考察其分布是否在x=c有跳跃;可通过Stata命令rd的选择项“cov(varlist)”来实现。

3.6“内生分组”问题

如果个体事先知道分组规则, 并可通过自身努力而完全控制分组变量, 则可 自行选择加入处理组或控制组, 导致在断点附近的内生分组而非随机分组, 引起 断点回归失效。对于内生分组, 则个体将自行选择进入断点两侧, 导致断点两侧的分布不均 匀, 即分组变量 的密度函数 在断点 处不连续, 出现左右极限不相等的 情况。McCrary(2008)提出检验以下原假设:

通过计算 及其标准误, 即可检验密度函数 是否在 处连续。内生性分组也可能是协变量 在 两侧分布不均匀; 故需要检验协变量 的条件密函数在 处的连续。

3.7稳健性检验

由于断点回归在操作上存在不同的选择,实验中一般建议同时回报以下各种情况,以保证稳健性。

(1)汇报三角核和矩形核的局部线性回归结果(后者等价于线性参数回归);

(2)汇报使用不同带宽的结果(比如,最优带宽及其二分之一或两倍带宽);

(3)汇报包含协变量与不包含协变量的情形;

(4)模型设定检验,包含检验分组变量的条件密度函数是否在断点处连续。

四、模型特点

4.1优点

(1)当随机实验不能开展的时候,如受限于成本预算和道德观念等因素时,断点回归可发挥它的作用;

(2)断点回归设计由于其回归结果与随机实验的结果并无太大差别,因此它被誉为“优越于所有其它已知的因果推断方法”。

4.2缺点

(1)工具变量法存在局限性,特别是排他性条件难以满足,即难以保证工具变量仅仅通过影响关键解释变量而影响到被解释变量,寻找合适的工具变量存在一定的困难;

(2)在使用断点回归时,如果其他协变量也存在着“中断”的情况,则不清楚是由于其他变量还是我们所关心的强制变量所导致的;

(3)断点回归衡量的是在临界值附近的局部平均效应,不是一个整体的平均效应,很难推广到整体研究中;

(4)非混淆假设条件严格。断点回归方法假设研究对象是同质的或近似同质的,即被放置对照的个体若放在实验组与放置在实验组的个体产生的效应是一样的,但在实际中和很难保证,如若产生异质性反应,则估计结果是有偏的。

本文由:颜  利   邓盛丹   陈  雯    牟祎楠  整理

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
断点回归设计国内外研究综述
断点回归设计: 理论前沿进展与新应用场景
掌握高级计量经济学的核心方法及Stata操作_陈强老师主讲
[交流讨论]eviews6.0中面板数据处理的一些方法和经验总结 - Eviews专版 -...
计量利器之stata面板数据处理
Stata:断点回归分析
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服