打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
TOP5最新: 不接受原先X与Y的散点图绘制程序, 绝不接受! 必须使用我们的!

接着“TOP5最新: 不接受log(y+1)或arcsinh(y)转换, 绝不接受!”,刚刚TOP5刊又对实证研究中使用超多的分箱散点图binscatter提出诸多质疑。反正,大家以后不能使用之前的软件程序进行X与Y关系的可视化,不然就会被质疑科学性。

*当然,就这一方面的问题,咱们社群群友也讨论的比较多,可以进一步加强交流。

在Stata软件中,用户编写的两个流行的命令binscatter(Stepner 2017)和binscatter2(Droste 2019)提供了分箱散点图的实现方法。然而,这两个软件包在处理协变量或固定效应时存在缺陷,可能导致分析结果的不准确。此外,即便不考虑额外的控制变量,这两个软件包所提供的分箱散点图功能也相对有限,它们主要用于分段常数估计(piecewise constant estimation),并且仅在最小二乘回归框架下应用。

与此相比,本文基础上的软件包不仅在理论上具有坚实的基础,还提供了一系列高级功能,这些功能在binscatterbinscatter2中是缺失的。这些新软件包能够处理非线性模型,提供有效的不确定性可视化,进行正式的方程和形状检验,支持群组比较,并且包括最佳分箱选择的算法。这些功能的加入,使得本文提供的软件包在实证分析中更为强大和灵活,能够满足研究者对于分箱散点图更深层次的需求。

明天,我们会具体讲一讲本文提供的新软件包情况。

对于分箱散点图的爱好者而言,一个好消息是:Cattaneo等的研究《关于分箱散点图》已经发表在了TOP5刊AER上。这项工作不仅在理论上对分箱散点图进行了深入探讨,而且为了方便实际应用,还附带提供了适用于Stata、R和Python的软件包。

Cattaneo, Matias D., Richard K. Crump, Max H. Farrell, and Yingjie Feng. 2024. "On Binscatter." American Economic Review, 114 (5): 1488-1514.

概要:
分箱散点图作为一种流行的可视化手段,广泛用于展示双变量关系并执行非正式的模型设计检验。在本文中,作者对这一方法进行了深入的正式研究,并开发了一系列增强型工具,旨在提升分箱散点图的可视化效果和计量分析的精确度。这些工具包括采用最优分箱技术来估计条件均值,并通过先进的方法量化分析中的不确定性。此外,还特别指出了在协变量调整过程中常见的方法论问题,这些问题如果不加以解决,可能会导致误导性的结论。为了展示方法的有效性,作者选取了两个实证案例进行分析,并发现与传统非正式分箱散点图方法相比,本文的结果有着显著的差异。为了便于更广泛的应用,作者还提供了适用于Python、R和Stata等通用统计软件包的实现。本文所提出的技术工作不仅提升了分箱散点图的应用价值,而且对于非参数分区估计的学术文献具有独立而重要的贡献。

一个Moretti(2021a)论文中的例子及使用本文提供的方法校正后的情况。可以看出来,如果不使用本文提供的方法进行分箱散点图展示以及进行校正,原来所谓的线性关系可视化错得有多离谱。

在本文的实证案例中,对Moretti(2021a)的研究进行了重新分析,该文探讨了顶尖发明家的创新产出与高科技集群之间的联系。在Moretti的研究中,高科技集群被定义为特定研究领域(如硅谷的计算机科学家)在特定城市的活跃度。该研究估计了一年内专利数量与集群规模之间的弹性系数为0.0676,发现了一个统计上显著的正相关关系,这与观察到的现象一致:为了吸引高科技公司,各州和地方政府提供越来越丰厚的补贴。

首先对数据进行了原始散点图分析,如图6的左上角面板所示。由于观察值接近百万,散点图显得非常密集且难以提供有用信息。右上面板复制了Moretti(2021a)中的图4,这是一个控制了年份、研究领域和城市效应的分箱散点图。直观地看,这个图形类似于传统的散点图——由点组成的云图上叠加了一条回归线——可能会给人一种两个变量之间存在正向但不稳定的关系的印象。然而,这种解释忽略了一个关键点:这些点代表的是条件均值函数的估计值,而非单个数据点。
图6的C面板进一步突显了这一点,它展示了条件均值函数的内在估计。尽管这一形式与原始论文中所展示的图(即图6的B面板)保持一致,但在视觉呈现上却表现出了明显的不同。此外,将这种具有明显波动的阶梯函数简单地用直线来近似,实际上是不恰当的。在这一过程中,主要存在两个问题:一方面,已经进行了不当的残差化处理;另一方面,由于箱数过多,导致了函数的过度平滑化。为了解决这些问题,图6的D面板采取了在本文提出的协变量校正方法。该方法以正确的尺度重新展示了残差化处理的效果,使得两者之间的差异更加明显。
当使用IMSE最优的箱数选择((J_{IMSE} = 18))时,如左下角面板所示,条件期望函数的点估计变得更加清晰。对于较小的集群规模,条件期望估计值似乎相对平坦;而对于较大的集群规模,估计值则急剧上升,表明了生产力与高科技集群之间可能存在的非线性关系。图6的E面板通过展示相关的置信带来形式化这一结论。由于置信带不包含水平线,明确地拒绝了变量之间没有关系的零假设。此外,由于没有线性函数能完全覆盖置信带,也拒绝了线性关系的假设。然而,鉴于置信带的形状,不能排除凸性的可能性。
总的来说,这些结果表明专利数量与集群规模之间存在非线性关系。图6的F面板对Moretti(2021a)的主要方程进行了同样的分析,包括了11种不同的固定效应,得出了相同的结论,明确拒绝了线性函数形式。通过本文的新工具获得的Moretti(2021a)结果的这种额外细节并非微不足道反而很重要。这意味着,对于只有少数发明者集群的州和地方政府来说,可能需要提供非常慷慨的激励措施,以促使他们的集群规模扩大到足以产生Moretti(2021a)所展示的正向集聚效应。

简要介绍:


散点图是数据分析领域的一项基础可视化工具。它通过将一组双变量数据样本的坐标
以点的形式在图上表示出来,从而直观地展示了所有(n)个数据点的分布情况。这种可视化手段使得研究者能够直观地评估变量(y)(x)之间的联合分布,以及在进行回归分析前对回归函数的形式、条件均值的变异性进行初步判断,并识别数据中的异常值、聚束(bunching)现象或其他异常情况。
然而,传统的散点图也存在一些局限性。随着数据集规模的增大,数据点的密集度也随之增加,导致散点图的信息量急剧下降,使得其难以解读。此外,对于规模适中但含有噪声的数据样本,评估条件均值函数的形状和其他属性也变得复杂。同时,随着对隐私保护意识的提高,直接展示原始数据点可能受到限制。此外,传统散点图在控制其他协变量的同时,展示(y)(x)之间关系的能力也有所不足,这在社会科学研究中尤为重要。
为了解决这些问题,分箱散点图应运而生,成为应用微观经济学中分析双变量关系的一种流行且有效的工具。分箱散点图通过将(x)的取值范围划分为若干个区间(或“箱子”),并在每个区间内展示一个点来表示该区间内结果变量数据点的平均值。这种方法简化了数据的展示,使得分箱散点图在清晰度和简洁性方面优于传统散点图。尽管如此,分箱散点图并不提供与散点图相同的信息量,它主要显示的是条件均值函数的估计值,而非数据的整体分布。
分箱散点图虽然不能作为传统散点图的完美替代,但它在评估函数形式、提供特征的定性评估(如单调性或凹凸性)以及指导后续的回归分析方面具有独特的优势。特别是在处理额外协变量时,分箱散点图提供了一种更为精细的方法,有助于研究者更深入地理解变量之间的关系。(参考Starr和Goldfarb在2020年的文献及其引用的文献)
在本文中,作者推出了一套创新的可视化工具,这些工具基于分箱散点图的原理,旨在恢复并提升传统散点图在数据展示上的优势。本工具包功能全面,不仅能够对条件均值函数进行估计,还能对数据的方差进行可视化展示,并对不确定性进行精确的量化分析。此外,该工具还包括对线性或单调性等关键假设的形式检验,以帮助研究者深入理解数据背后的实质关系。
使用本工具包,研究者可以轻松捕捉数据的关键特征,无需费力地解析大规模数据集中密集的数据点云,也无需泄露任何个体数据点的具体信息。作者为这些工具提供了坚实的理论基础,对分箱散点图及其相关分区方法进行了广泛的理论分析。同时,也指出了以往分箱散点图实现中在协变量调整方面存在的普遍问题,这些问题可能导致对条件均值的估计和可视化出现形状和范围上的偏差。作者通过实例展示了在分箱散点图的应用过程中,不当的协变量调整如何可能导致研究者对线性或其他参数假设的条件均值评估产生误导。
分箱散点图的构建理念十分简洁明了:将数据根据协变量(x)划分为(J < n)个区间,通常利用经验分位数来确定这些区间,然后计算每个区间内具有特定协变量值的观察结果变量的平均值。最终的图表展示的是(J)个点,即每个区间内(x_i)值的单位样本平均值
,其中
。此外,通过仅展示这些平均值,分箱散点图能够轻松处理离散型的结果变量数据。这样的设计不仅保留了传统散点图的概念吸引力和视觉简洁性,还增加了实用性,使得数据的展示更为清晰和易于理解。
在分箱散点图中,通过(J)个点直观地揭示了变量(y)(x)之间的双变量关系。这些点代表的是在特定区间内
的条件下,(y)的均值。因此,分箱散点图非常适合用来直观地检查条件均值。其主要用途在于评估均值函数的形状,比如判断关系是否呈现线性、单调性、凸性等特征。在实际应用中,如果分箱散点图呈现出大致的线性趋势,这通常预示着可以进行线性回归分析。事实上,作者提供了严谨的论证,证明了在一定条件下,这种方法是合理有效的。
为了具体说明,图1展示了一个利用Akcigit等(2021,2022)的数据构建的分箱散点图的示例——以下简称为AGNS数据。这篇论文将作为本文的案例研究,通过真实数据来阐释本文的核心思想和主要结果。AGNS研究了20世纪美国企业和个人所得税对创新活动的影响。图1的A部分展示了对数专利数量与关键变量——转换后的边际税率之间的原始散点图。尽管样本包含了约3000个观察结果,但要从散点图中得出关于数据的推论仍然非常困难(第IV节将探讨一个更大规模的数据集)。

图1的B部分展示了正在构建的分箱散点图,背景中叠加了原始数据。C部分则展示了单独的分箱散点图,并在其上叠加了线性回归拟合线。类似图1的C部分这样的图表在实证研究论文中十分常见。需要指出的是,尽管分箱散点图似乎鼓励观察者通过“连接点”来绘制一个平滑的曲线,但实际上的估计方法是基于分段常数的,这一点在图1的D部分中得到了明确的展示。虽然在图形上看起来有所不同,但这种表示方法在形式上与图1的C部分中的点是一致的。
图1还突出了一个重要的事实:尽管平均化对于评估条件均值非常有用,但它可能会掩盖条件分布的其他特征,这些特征对于后续分析可能同样重要。这为分析和可视化的有效性带来了一定的局限性。请注意,从图1的B部分过渡到C部分时,有多少信息被丢失了。后续的推断工具通过增加对分箱散点图形式的不确定性量化,帮助克服了这一局限性。
在构建分箱散点图的过程中,研究者常常会引入额外的控制变量和固定效应以调整混杂因素。如图1的C所示,标准的分箱散点图通常是在“控制”了一组协变量之后绘制的。然而,这一过程并非没有挑战,因为这些控制变量不仅影响可视化的结果,还可能影响不确定性的评估。即便是在分箱散点图中常见的添加回归线的做法,也并非总是直接明了。
特别指出,现行方法中普遍采用的“残差化”处理额外协变量后再构建分箱散点图的做法,存在重要的方法论和理论上的问题。这种方法只有在真实的函数关系是线性的情况下才理论上站得住脚。否则,按照常规方法进行的调整可能会导致对条件均值形状和支持范围的错误估计。图2通过重新审视AGNS的数据,展示了这一问题在实证研究中的实际重要性。AGNS的基准研究探讨了对数专利数量与边际税率之间的关系,并采用了包括固定效应在内的丰富控制变量。在宏观层面的分析中,他们得出了税收增加对创新数量有负面影响的结论。
图2的A受到了AGNS图I(A)的启发,通过与图I(A)中的原始散点图对比x轴,可以观察到支持范围的扭曲。图2的B是AGNS的正确缩放图,它基本上没有提供关于均值形状的信息。而图2的C则展示了采用本文提出的修正协变量调整方法所得到的相应结果。
为了提升分箱散点图在实证研究中的应用,本文提供了一系列结果和工具。作者改进了条件均值函数的估计方法,并提供了量化不确定性的新工具。为了推进分析,首先证明了分箱散点图本质上是一个非参数估计值,并构建了一个建模框架。该框架使我们能够进行深入的形式分析,并提出了新的、更为强大的方法来解决概念和实施上的问题。本文明确了实证应用中感兴趣的参数,无论是用于数据可视化还是形式推断。本文的框架基于部分线性模型,展示了如何以一种合理且可解释的方式控制额外变量,并讨论了为何不建议采用先前的实现方法。
在本文的研究框架中,作者深入探讨了分箱散点图中箱数(J)的选择问题,并阐明了(J)的选择对于分箱散点图的解释和非参数估计的重要性。在利用分箱散点图恢复条件均值函数的过程中,遵循了半参数和非参数推断中的一个常规假设,即随着样本量的增加,箱数(J)也会相应地增长。基于此,作者提出了一种基于数据的方法来确定最优的(J)值,以确保估计的准确性。同时,也允许研究者选择一个固定且由用户自行决定的(J)值,这样做虽然可能会牺牲一些精确度,但能够提供一个更为直观和简化的可视化效果。例如,选择(J = 10)可以直观地展示在(x)的不同分位数上的平均结果,即便如此,我们的方法仍然适用并能够提供有效的结果。
接下来,本文讨论了不确定性的量化问题。在可视化方面,提供了置信带,它包含了对条件均值或其他感兴趣的函数参数估计的不确定性。置信带是一个区域,以预设的概率包含整个函数,类似于置信区间覆盖一个单一值,因此它是评估回归函数不确定性的一个恰当工具。置信带可以直观地评估参数化函数形式的可信度,例如线性。它们部分地恢复了传统散点图在不确定性可视化方面的能力,通过捕捉对条件均值函数形式的确定性。此外,本文的置信带明确地基于数据的条件异方差函数。设计有效的置信带需要创新的理论成果,这代表了本文工作的主要技术贡献。
图3的A部分展示了AGNS数据的置信带,这依赖于基于数据选择的(J)值和稳健的偏差校正方法,以确保推断的有效性。与原始的图2的A部分相比,分箱散点图在视觉上呈现出相当线性的特征。此外,图3的B部分展示了在置信带内可以绘制一个线性函数(以红线表示),从而可以有效地得出结论,线性模型与这些数据是一致的。在这种情况下,本文的新方法支持了原始论文中的线性回归分析。(在第IV节中,展示了一个线性模型不适用的应用案例,但本文的方法仍然加强了经验结论,并以经济上有意义的方式扩展了它。)
本文的组织结构如下:首先,将简要回顾相关文献,并概述本文的技术贡献。在第一部分,正式将分箱散点图定义为一种非参数估计方法,阐明了关注的关键参数,并讨论了如何正确地引入控制变量。第二部分深入探讨了箱数(J)的选择问题。第三部分则专注于不确定性的量化,这对于可视化和假设检验都至关重要。在全文的讨论中,以AGNS的应用为例,展示了本文方法的实用性。此外,在第四部分,通过重新审视Moretti(2021a,b)的工作,提供了另一个实证应用案例。这两个案例均凸显了本文研究成果在实际经济分析中的应用价值。
第五部分集中介绍了本文的主要理论成果,并进一步讨论了本文的技术贡献。最后,在第六部分,将总结全文的主要发现。在线附录中,提供了正文中未详细展开的额外讨论和详细信息,包括所有结果的证明以及对技术贡献的详尽阐释。值得一提的是,本文所有的方法和结果都已集成在功能完备的Stata、R和Python软件包中,以方便应用(参见Cattaneo等,2023a;Cattaneo等,2024,以及相关在线资源 https://nppackages.github.io/binsreg/)。

*群友可直接在社群下载AER原文PDF参阅。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

7年,计量经济圈近2000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
数据科学:是时候该用seaborn画图了
相关
SAS系列33:SAS高级统计(二)多元线性回归
高中数学一对一辅导——变量间的相关关系、统计案例,必藏!
R语言︱常用统计方法包 机器学习包(名称、简介)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服