打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
因果推断(一):因果推断两大框架及因果效应

“因果推断不是方法本身,而是整套统计框架,它可以跟各种模型进行衔接,比如跟经济学、心理学、统计学、机器学习模型衔接,这个学科是30年前才慢慢形成了描述因果推断的语言”[4]。
因果推断与机器学习有着密切的关系,机器学习的蓬勃发展促进了因果推断的发展,因果推断有助于改进机器学习方法,两者是相互促进的。
接下来,我们将会针对因果推断做一个系列分享,希望关注因果推断的小伙伴持续关注我们。本文重点分享因果推断的核心基础知识,包括因果关系的三个层级、因果推断解决的两个主要问题、因果推断两大理论框架、因果效应指标及其计算方法。

1 因果关系的三个层级

因果推断是基于统计学方法刻画变量之间的因果关系。因果关系存在三个层级[3]:
第一层级(关联):从数据中观察到哪些相关规律?变量之间的关联是怎样的?是基于相关性的,是对历史数据的总结。例如,购买牙膏的顾客同时购买牙线的可能性有多大?
第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现状。例如,如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?
第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。例如,现在我的头已经不痛了,是因为我吃了阿司匹林吗?假如我没有服用过阿司匹林会发生什么?因为一个人(个体)不可能同时存在吃阿司匹林(干预)和不吃阿司匹林(未干预)的两种状态,所以与事实相反的那种状态就是反事实,因果模型可用于回答此类反事实问题。因果关系之梯第三层级的典型问题是:“假如我当时……了会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世界的比较,仅靠干预实验无法回答这样的问题。
目前大部分机器学习模型和深度学习模型还处在第一层级,仅仅实现了对历史数据的“曲线拟合”,回答的是相关性问题,相关性不等于因果性,这就导致解释性差。机器学习无法回答反向因果关系(反事实)的问题,反向因果关系要求我们回答“如果”的问题,例如,如果我使用另一个价格而不是我目前要求的商品价格,会发生什么?机器学习无法通过相关性预测来回答这些问题。因果推断方法能让我们站上第二、三层级,没有因果模型,我们就不能从第一层级登上上面的层级。

2 因果推断解决的两个主要问题

因果推断解决的两个主要问题是:因果关系发现和因果效应评估。

因果关系发现(Causal Discovery):研究变量两两之间是否有因果关系?如果有,谁是因谁是果?

因果效应评估(Causal Effect Estimatation):研究“因”的改变能带来多少”果”的变化。

3 因果推断两大理论框架

针对因果推断的研究,有多种理论框架被提出,其中最出名也是应用最广泛的两大理论框架为结构因果模型(Structural Causal Model,简称SCM)和潜在结果框架(Potential Outcome Framework),这两种框架的研究视角不同,但本质是等价的, Judea Pearl 在他的著作《Causality: models, reasoning, and inference》中介绍了这两种框架的等价性。

3.1 结构因果模型

结构因果模型由Judea Pearl提出,该模型是描述数据产生机制和外部干预的形式化语言,通过构建关键要素的因果图,结合structural equations来描述变量之间的因果关系。该模型主要解决的问题是因果关系发现(Causal Discovery),也可以定量地进行因果效应评估。因果关系发现本质是挖掘各变量之间的因果关系,例如,商品打折是否是销量增加的原因?或者在商品价格、商品转化率、商品上市时间、商品成本等几个变量之间探究一个因果图。

Judea Pearl教授是计算机出身,他提出的框架是以图这种更直观的方法进行研究。

该模型的优缺点及适用场景如下:

  • 优点:以因果图的形式展现,推导变量之间的因果关系,更加直观。

  • 缺点:变量较多、关系复杂时,构建困难。

  • 适用场景:变量较少时,SCM可以更好地描述变量关系,结果置信度高。

3.2 潜在结果框架

潜在结果框架由Donald Rubin提出,所以也被称为Rubin Causal Model(简称RCM),潜在结果框架主要解决的问题是因果效应评估(Causal Effect Estimatation),研究“因”的改变能带来多少“果”的变化,即通过学习因果效应(causal effect)来确定某个具体的干预(Treatment)对应的结果(Outcome)的变化,估计不同干预下的潜在结果(包括反事实结果),以估计实际的干预效果。例如,在用户增长领域的发券补贴场景中,干预是发券,通过因果效应评估,我们可以得到发券比不发券带来的订单转化率的增加是多少。

该框架给出了因果作用的形式化数学公式,主要用在原因和结果变量已知的前提下,定量评价原因变量对结果变量的因果作用。

Donald Rubin教授是统计学出身,因此他提出的框架会以形式化的数学公式进行研究。

该模型的优缺点及适用场景如下:

  • 优点:淡化因果关系,关注因果效应的评估。

  • 缺点:没有系统的论证变量是否存在因果关系。

  • 适用场景:变量较多时,RCM可降低分析复杂度,使效应评估变得可行。

结构因果模型和潜在结果框架等价,潜在结果框架( Potential Outcome Framework )更适用于工业界的场景和问题,下文主要从潜在结果框架去阐述,关注在因果效应评估方面。

4 因果效应

上文提到了,因果效应评估(Causal Effect Estimatation)是研究“因”的改变能带来多少“果”的变化,即通过计算因果效应(causal effect)来确定某个具体的干预(Treatment)对应的结果(Outcome)的变化,估计不同干预下的潜在结果(包括反事实结果),以估计实际的干预效果。

在了解因果效应计算之前,我们对因果推断的常见术语——个体、干预和潜在结果进行定义:

:个体
:干预(Treatment)
:对个体施加的干预
:个体上观察到的结果

因果效应的计算可以基于四种维度:总体(population)、实验组( treated group)、满足某条件(subgroup), 个体( individual levels),基于这四种维度,因果效应指标定义如下。

平均因果效应(Average Treatment Effect, ATE它等于潜在结果差值的期望
条件平均因果效应(Conditional Average Treatment Effect, CATE),它等于潜在结果差值的条件期望为筛选个体的特征值,也被称为协变量。CATE也称局部因果效应,关注在某个特征的人群。
平均处理效应(Average Treatment effect on the Treated group,ATT),即实验组的因果效应,计算被干预人群的平均因果效应,它等于
个体因果效应(Individual Treatment Effect, ITE),它等于。(个体可以理解为局部的极限)
为形象且深入地理解因果效应,我们下面会以一个例子来阐述因果效应的各个指标,重点参考了[1]。

上图中,纵轴为巴西高考(ENEM)成绩,横轴为学校在课上是否给学生提供平板电脑,蓝色箱线图为课上不提供平板电脑的成绩分布,橙色箱线图为课上提供平板电脑的成绩分布。推断提供平板电脑是否可以提高高考成绩?

上图中,显然是学校提供了平板电脑的学生成绩更好,但实际上“学校给学生提供平板电脑”和“学生成绩”有因果关系吗?实际上这个例子只能说明两者是相关关系,因为提供平板电脑的学校的学生可能更富裕,即使没有给学生提供平板电脑,这些学生的成绩也可能会很好。因此,我们只能说,根据上图,“学校给学生提供平板电脑”和“学生成绩”有相关性,但不一定有因果性。

我们可以使用因果推断的方法来度量一下。

在这个例子中,干预为“学校给学生提供平板电脑”。

:个体上观察到的结果,在这个例子中,代表的是学生成绩。

因果推断的核心问题:我们无法在同一个体上同时观察到被施加干预和未被施加干预的两种状态。这就像弗罗斯特的那首诗《未选择的路》所描述的,站在人生的分叉口,眼前有两条路,一个人只能选择一条路,而选择了这条路就决定了人生不可能再走另一条路。

The Road Not Taken  by Robert Frost
Two roads diverged in a yellow wood, 黄色的树林里分出两条路
And sorry I could not travel both 可惜我不能同时去涉足
And be one traveler, long I stood 我在那路口久久伫立
And looked down one as far as I could 我向着一条路极目望去
To where it bent in the undergrowth; 直到它消失在丛林深处
潜在结果(potential outcome)之所以说是潜在,是因为不一定真的发生,它表示只有施加了某种干预才会产生对应的结果,我们把已经发生的潜在结果称为事实,把没有发生的结果称为反事实。但是,个体被干预和未被干预分别对应的潜在结果是客观存在的,与是否真的对该个体进行干预无关,也就是干预与潜在结果独立,这是因果推断的无混淆假设,在下一篇文章中我们会详细展开。“干预与潜在结果独立”举个例子,假设你很喜欢喝某个店的奶茶,它给你发券你就会多买,不发券你就会保持正常的购买频次,这里干预就是发券,购买频次就是结果,“发券你就会多买”是客观存在于你的意识里的,即便这个店没有真的发券
潜在结果有时候会用来表示,则也可表示为可以表示为
在上面的例子中,如果学生被提供了平板电脑(被干预),那学生的成绩可以用表示,无论学生是否真的被干预,都是客观存在的,如果学生拿到了平板电脑,我们就可以观察到,假设没有拿到平板电脑,我们就可以观察到。注意,假设没有拿到,也是客观存在的,只是我们无法观察到它,此时,它就是反事实的潜在结果。
学生个体因果效应ITE
然而,我们无法同时观察到一个个体被干预和未被干预的两种潜在结果,我们无法计算ITE。我们可以关注更容易计算的平均因果效应ATE,ATE=,之所以说更容易计算,是因为我们可以通过消偏或AB实验的方法来计算,这部分会在之后的文章详细展开。另一个更容易计算的是平均处理效应ATT
为了理解上述因果效应指标,假设我们可以同时观察到一个个体被干预和未被干预的两种潜在结果,我们得到了4个学生被提供平板电脑和未被提供平板电脑的成绩,如下图所示:
上表中,表示学生序号;表示干预,即提供平板电脑;表示真实干预的结果,例如学生1没有拿到平板电脑,那么其为个体因果效应,
是上图中最后一列的均值,,这个结果说明提供平板电脑使学生的成绩平均下降了50分。
是上图中的最后一列的均值,,这个结果说明,对于我们干预(提供平板电脑)的学生来说,使用平板电脑使学生的成绩平均下降了75分。
实际上,我们无法同时观察到一个个体被干预和未被干预的两种潜在结果,上表中的真实数据应该如下图所示:
有同学可能会说,我们得不到上表中NaN的值,难道不可以这样计算吗?不可以!直接将被干预的均值与未被干预的均值作比较属于相关性问题,相关性度量,相关性度量的结果125与上文因果效应指标计算的-50代表了两种完全不一样的结论。这个例子也说明了,相关性与因果性是不相等的,相关性与因果性的关系,我们会在之后的文章中详细展开。

5 总结

本文主要介绍了因果关系的三个层级、因果推断解决的两个主要问题及两大理论框架、因果效应指标及其计算方法。在“4 因果效应”章节中,我们提到了因果推断的假设,熟悉因果推断假设是使用因果推断的前提,因果推断假设对于初学者可能比较晦涩,较难理解,在下一篇文章中我们会进行重点介绍,相信对于同学们在理解上会有很大帮助。在“4 因果效应”章节中,我们也提到了相关性与因果性,了解相关性与因果性的关系对于使用因果推断、理解偏差与消偏都非常重要,接下来我们也会对这部分知识进行分享。

下文列举了本文的参考资料,关注公众号“算法后花园”并回复“因果推断1”进行获取。

参考

[1] Causal Inference for The Brave and True.

[2] A Survey on Causal Inference.

[3] 《为什么 关于因果关系的新科学》. Judea Pearl,中信出版社.

[4] 【因果推断入门】饺子博士and饭老师(b站)

[5] 浅谈因果推断与在内容平台的实践 by 李煊老师

[6] 基于因果推断的商家经营智能诊断实践 by 刘春辰博士

[7] 因果推断在腾讯 PCG 中台的落地实践 by 刘刚刚

[8] 因果推断简介 丁鹏


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
文献荐读 | 第一部分 因果推断:基本框架(1)
定量研究须直面因果判断
文献介绍:社会科学研究中的因果推论
耿直等:因果推断的统计方法(节选)
最全解读匹配方法原理
鸡同鸭讲?| 选择性偏差与内生性问题是一回事儿吗?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服