耿直等：因果推断的统计方法（节选）

本次推送节选了数学科学学院耿直老师等撰写的论文《因果推断的统计方法》的第一和第二部分。在第一部分中，作者回顾了数千年以来因果关系问题对人类的困扰，指出了因果关系在当下前沿科学研究中的重要地位，并解释了因果关系和相关关系的区别；在第二部分中，作者介绍了潜在因果模型以及统计学家们对它的不断改进，从数学模型出发，一步一步导向实际研究中可行的研究方法。

本文原载于《中国科学·数学》2018年第12期。如果你对相关知识感兴趣，可以查找并阅读未节选的部分，或关注耿直老师本学期开设的通识教育核心课“普通统计学”。

因果推断的统计方法

苗旺 | 北京大学光华管理学院

刘春辰 | NEC中国研究院

耿直 | 北京大学数学科学学院

摘要

探索事物之间的因果关系和因果作用是很多科学研究的重要目的．因果推断的统计方法是利用试验性研究和观察性研究得到的数据，评价变量之间的因果作用和挖掘多个变量之间的因果关系．本文将介绍因果作用和因果关系的形式化定义，以及因果推断的两个主要统计模型：潜在结果模型和因果网络模型．本文将探讨因果作用的可识别性和因果网络的结构学习，综述有关因果推断的若干研究问题和动态．

关键词

因果作用因果网络混杂因素潜在结果模型因果推断有向无环图

一

引言

探求事物之间的因果关系是哲学、自然科学和社会科学等众多研究所追求的终极目标．古希腊哲学家德谟克利特（约公元前400年）认为：发现一个因果关系胜过做国王．培根（1561–1626年）提出“知识就是力量”，并认为“真正的知识是根据因果关系得到的知识”．探索并发现因果关系及其方法论的研究，伴随人类社会的发展而不断精深，成为经久不衰的挑战．如何根据观测和试验探究事物之间的因果关系，这个问题自东西方古代哲学到现代科学，已经困惑了人类数千年．因果关系与相关关系是两个不同的概念．即使两个变量有相关关系也可能没有因果关系；相反地，它们没有相关关系也可能有因果关系．十九世纪末，统计学家提出了各种相关关系的形式化度量，最具有代表性的是Pearson相关系数．一个多世纪以来，统计学中关于相关关系的研究取得了令人瞩目的成就，而关于因果关系的研究则进展缓慢．正如 Holland (1986) 指出的那样：涉及因果推断的问题自始就缠住了统计学前进的步伐．2011 年图灵奖获得者 Pearl (2009a) 认为：在过去的一个世纪中，许多科学发现被推迟是由于缺少描述因果的数学语言．近年来，探索因果关系的研究越来越激励着统计学者和计算机学者，在统计领域中对因果推断的兴趣正在复兴 (Lauritzen, 2004)．2008 年以来，在国际机器学习会议和期刊中组织了多次因果挑战的 Workshops (Guyon et al., 2008) 和专题论文 (Spirtes, 2010)．在大数据时代，不仅要紧盯事物之间的相关关系，更应该挖掘蕴藏在大数据中的因果关系(DARPA, Big Mechanism Program, https://www.darpa.mil/program/big-mechanism)．例如，某超市发现顾客买尿布与买啤酒有很大的相关性，实际上二者没有因果关系，而出现这个相关性的原因是在家照顾婴儿的主妇常让丈夫去超市买尿布，这些丈夫买尿布的同时会顺便买啤酒．如果这些主妇改为自己在网上买尿布的话，将不能期望她们的丈夫同时会买啤酒．

图为2011年图灵奖获得者Judea Pearl

在科学研究的各个领域都存在因果推断的挑战问题．在经济学中，诺贝尔经济学奖获得者Heckman (2008) 提出了政策评价中的三个因果推断的挑战问题：

· 评价历史上出现的干预对结果的影响；

· 预测在一个环境中曾执行过的干预在其他环境中的影响；

· 预测历史上从没有经历过的干预在各种环境中的影响．

从时间序列预测的角度，Granger (1969) 中提出了因果关系的定义：如果利用X能更好地预测Y ，那么X是Y 的原因．这个定义不能描述真正的因果关系，实际上是相关关系．例如，看到闪电可以预测雷声，而闪电却不是雷声的真正原因．相关关系是“预测”的基础，而因果关系是“决策”的基础．

目前，因果推断采用的两个主要模型是潜在结果模型(Neyman, 1923; Rubin, 1974) 和因果网络模型(Pearl, 1988, 2009b)．潜在结果模型给出了因果作用的数学定义．该模型主要用在原因和结果变量已知的前提下，定量评价原因变量对结果变量的因果作用．因果网络模型是描述数据产生机制和外部干预的形式化语言．因果网络是将贝叶斯网络加上外部干预，用来定义外部干预的因果作用和描述多个变量之间的因果关系．利用因果网络不仅能定量评价因果作用，还能定性确定混杂因素，用于从数据挖掘因果关系．

本文第2节介绍因果推断的潜在结果模型，因果作用的可识别性，和随机化试验；第3节介绍观察性研究和混杂因素，以及混杂因素完全观测时的因果推断方法；第4节介绍存在未观测的混杂因素时因果作用的估计方法；第5节介绍替代指标悖论和确定替代指标的准则；第6节介绍因果网络模型和结构学习的算法．最后，在第7节我们展望因果推断在现代大数据研究中的前景．

二

潜在因果模型

潜在结果和因果作用的定义

两个变量 X 和 Y 的相关系数可以用X 和 Y 的联合分布的函数表示．例如，Pearson 相关系数表示为 ρ(X, Y ) = σxy/(σxσy)，其中，σxy 是 X, Y 的协方差，σx, σy 分别是 X, Y 的标准差．但是，如何形式化表示两个变量 X 和 Y 的因果作用的度量呢？用观测变量 X 和 Y 的联合分布的函数怎么也不能清楚地定义因果作用．

图为Pearson相关系数的发明者之一Karl Pearson

计学家利用潜在结果给出了因果作用的的形式化定义．利用潜在结果模型，Neyman (1923)针对试验性研究 (experimental studies) 给出了因果作用的数学定义，Rubin (1974) 将这一定义推广到观察性研究 (observational studies)．潜在结果模型通常需要假定个体处理值稳定 (stable unit treatment value assumption，SUTVA)：个体i的潜在结果不受其他个体的处理的影响，并且对每个个体和每一种处理只有一个潜在结果，详细讨论见 Rubin (1980)．考虑一个二值处理或暴露变量(treatment/exposure)，X = 1 代表处理组，0 代表对照组．在接受处理分配 X = x 后的结果变量为 Yx, 表示假如接受处理 X = x 后的结果，称为潜在结果 (potential outcome)．对每个个体，实际观察的结果变量Y 可以用潜在结果(Y1, Y0)表示为 Y = XY1 + (1 − X)Y0. SUTVA 假定意味着张三的病是否被治好不受李四是否吃药的影响．这个假定在很多实际问题中不成立，例如，李四获奖，也许会影响其同事张三的工作积极性；周围的朋友打不打流感预防针也许会影响自己得不得流感．这个假定也许是潜在结果模型的重要缺陷之一．目前有一些学者试图利用社会网络方法弥补这个缺陷(Athey et al., 2018; Eckles et al., 2017; Hudgens and Halloran, 2008; Liu and Hudgens, 2014; Sobel, 2006; Tchetgen and VanderWeele, 2012)．

因果作用定义为相同个体的潜在结果的比较 (Neyman, 1923; Rubin, 1974, 1978)．个体 i 的因果作用 (individual Causal Eﬀect, ICE) 定义为：

ICE(i) = Y1(i) − Y0(i)．

尽管潜在结果模型清楚地定义了个体因果作用，但是，正如赫拉克里塔斯（Heraclitus，古希腊哲学家）所指出的那样：你不可能两次踏入相同的河．对于每个个体i,通常不可能既观测到 Y1(i)，又观测到 Y0(i). 因此，个体因果作用通常是不能从观测数据推断的．尽管如此，有一些学者试图探讨个体因果作用的统计推断方法，这一般需要较强的模型假定．目前，个体化治疗和精准治疗也是试图推断个体因果作用或同质个体人群的因果作用 (Chakraborty and Moodie, 2013; Kleinberg and Hripcsak, 2011; Murphy, 2003; Su et al., 2012)．由于对每一个体i，Y1(i) 和 Y0(i) 不能同时观测到，因此，因果推断还可以看为是一个缺失数据的问题．

统计学是关心总体的特征，利用潜在结果，还可以定义总体的平均因果作用．

定义2.1 总体的平均因果作用定义为个体因果作用的期望：

ACE = E(ICE) = E(Y1 − Y0) = E(Y1) − E(Y0)．

平均因果作用定义为假若所有个体都接受处理 X = 1 的平均结果 E(Y1) 与假若所有个体都接受对照 X = 0 的平均结果 E(Y0) 之差．在实际中不可能让所有的个体都接受处理 X = 1，再接受对照 X = 0；即使这样做，对同一个体 i，先接受处理 X = x 的潜在结果 Yx(i) 与后接受处理 X = x 的潜在结果 Yx′(i) 可能也不一致．

进一步，人们可能关心某个子总体的平均因果作用．例如，某药物对不同人群，如对男性或女性分别的疗效．

定义2.2 令V 为协变量. 定义V = v子总体的平均因果作用为E(Y1 − Y0 | V = v)．

另外，人们常常关心处理组的因果作用．例如，流行病学家并不关心吸烟对整个人群的因果作用，而只关心吸烟对吸烟人群的因果作用．

定义2.3 处理组的平均因果作用定义为E(Y1 − Y0 | X = 1)．

我们称平均因果作用 ACE = E(Y1 − Y0) 为可识别的，如果 ACE 可以由观测变量的分布pr(X, Y, V ) 唯一确定．如果 ACE 不可识别，则意味着至少存在两个不相等的 ACE ̸= ACE′ 满足观测到的数据．可识别性往往是因果推断中最棘手的问题．为了得到因果作用的可识别性，通常需要有额外的假定．随机化试验是识别因果作用最有效的方法．

随机化实验

图为英国统计学家Ronald Aylmer Fisher

统计学家 R. A. Fisher 给出了识别平均因果作用的方法：随机化试验设计．随机化处理分配 X 给个体 i，比如抛硬币确定个体 i 的处理 X，与潜在结果及协变量的取值无关，可以保证潜在结果(Y1, Y0) 和处理分配 X 独立，即，在随机化分配下，有(Y1, Y0) X，进而

E(Yx) = E(Y|X = x), ACE = E(Y|X = 1) − E(Y|X = 0)．

在随机化分配下，平均因果作用表示为观测到的结果变量 Y 在处理组 X = 1 与对照组 X = 0 中期望之差，不再含有潜在结果变量 Y1 和 Y0，因此，它是可识别的．通过分别估计 E(Y | X = 1) 和E(Y | X = 0)，传统的统计推断方法可以用来推断平均因果作用．例如，用 t-检验研究平均因果作用是否为零．随机化试验的理论、设计和实践，见 Fisher (1935)．

在实际研究中，随机化试验往往不具备可操作性．例如，研究吸烟对肺癌的作用，不能随机化分配一个人吸烟或不吸．在实际中经常面临的其他问题，例如代价昂贵，个体不依从(noncompliance) 等等也都限制了随机化试验的应用．在下两节，我们介绍利用观察性研究推断因果作用的方法．这些方法使用观察性研究得到的数据，通过引入处理分配可忽略性假定，或者辅助变量，比如工具变量 (instrumental variable)，阴性对照变量 (negative control variable) 来推断因果作用．

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。