打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
朱迪·珀尔 等:消灭潜伏变量

北京大学数学科学学院耿直教授开设的“普通统计学”课程是本学期的通识核心课程之一。今天博雅哥为大家带来的是耿直教授所推荐的文章,节选自朱迪·珀尔与达纳·麦肯齐著《为什么:关于因果关系的新科学》(中信出版集团股份有限公司,2019年)第四章。

在本文中,作者从对《圣经》中丹尼尔的对照试验的分析入手,展现了对照试验需满足的各个原则;同时指出了这一试验存在的不足,即没有处理“混杂偏倚”问题,这一问题一段时间以来困扰了许多统计学家。作者认为随机对照试验是去混杂的有效方式,而因果效应为这一方式提供了理论保障,相应的因果图则是处理混杂的完整而系统的解决方案。具体分析可参考本书中的后续内容。

博雅哥曾在上一学期推送过本书的第二章选段《因果推断的起源》,欢迎读者一并阅读。

走进课堂 | 朱迪亚·珀尔:因果推断的起源

Vol.1022

走进课堂


混杂和去混杂:或者,消灭潜伏变量

朱迪·珀尔  /  达纳·麦肯齐

如果随机对照试验的发明者能借鉴我们对因果效应的理解,那么其早在费舍尔之前的500年就应该被发明出来了。

——作者(2016)

尼布甲尼撒国王王宫的太监长亚施毗拿遇到了一个棘手的问题。公元前597年,巴比伦王洗劫了犹大国,带回了数以千计的俘虏,其中许多是耶路撒冷的贵族。依照帝国传统,尼布甲尼撒希望他们中的一些人在王宫效力,因此他命令亚施毗拿去寻找“那些没有缺陷、相貌英俊、技能全面、通达知识、理解科学的孩子”。这些幸运的孩子将接受巴比伦语言和文化方面的教育,以便更好地服务于这个横亘在波斯湾与地中海之间的帝国。作为教育的一部分,他们都要吃皇家饭,喝皇家酒。

问题就出在这里。亚施毗拿最喜欢的一个叫丹尼尔的男孩拒绝吃这种食物。出于宗教原因,他不能吃犹太法律不允许吃的肉,他要求为他和他的朋友提供素食。亚施毗拿愿意实现男孩的愿望,但他害怕国王会表示不满,“一旦他看到你愁眉不展的脸,看到你跟你同龄的孩子表现得不同,我会掉脑袋的”。

丹尼尔试图向亚施毗拿保证吃素不会削弱他们服务国王的能力。作为“通达知识、理解科学”的人,他提出可以进行一次试验。“给我们10天时间,让我们4人只吃蔬菜,让另一组孩子吃皇家的肉,喝皇家的酒。10天后,让两组进行比较。”丹尼尔说,“之后就据你所见来做决定吧!”

即使你没有读过这个故事,你也能猜到接下来会发生什么。丹尼尔和他的三个同伴在素食饮食下健康成长。国王也为他们的智慧和学识(当然还有他们那健康美丽的外表)所打动,在王宫中给他们安排了最好的职位,而且“国王发现他们比所有的魔术师和占星家都还要强上10倍”。后来,丹尼尔成为国王的解梦人,并在一次被关进猛狮洞穴的考验中幸存下来,留下了一段传奇。

有关丹尼尔的这个圣经故事常被认为是历史上第一个对照试验。丹尼尔(很可能是左数第三个)认识到,只有通过事先选择,让进行比较的两组个体尽可能相似,我们才可以对两种饮食的效果进行适当的比较。尼布甲尼撒国王(后方中央)被试验结果打动了。(资料来源:由达科塔·哈尔绘制)

无论故事真假与否,这个关于丹尼尔的圣经故事都以一种深刻的方式概括了今天实验科学的做法。亚施毗拿问了一个关于因果关系的问题:素食饮食会让我的奴仆变得消瘦吗?丹尼尔则提出了处理此类问题的方法论:组织两组人,保证他们在所有相关方面的特征都相同或相似。给一组人以新的处理(饮食、药物等),而对另一组(称为对照组)要么给予以前的处理,要么不给予任何特殊处理。在经过一段适当的时间之后,如果你看到这两组各方面条件假定相同的人之间出现了可测量的差异,那么新的处理就必然是差异的因。

如今,我们称此类实验为对照试验(controlled experiment),其原则很简单。为了了解饮食的因果效应,我们需要比较一下丹尼尔本人在应用两种不同的饮食方法后的身体情况。但是我们不能回到过去重写历史,所以我们接下来可以采取的最佳措施是:将接受素食饮食的一组人与没有接受素食饮食的另一组条件类似的人进行比较。显而易见又十分关键的一点是,这两组人必须是可比较的,并且代表的是某一总体。在满足了这些条件的前提下,试验结果就应该能够迁移至整个总体。值得称赞的是,丹尼尔似乎完全清楚这一点。他不仅仅是为了自己的利益而要求素食,因为如果试验表明素食饮食更适合他们,那么接下来这些来自以色列的奴仆就都可以被允许选择素食饮食了。至少,这是我个人对“之后就据你所见来做决定吧”这句话的解释。

丹尼尔还明白,进行小组间的比较很重要。在这方面,他的理解比今天的很多人要成熟许多。例如,今天有许多人之所以选择某种流行的饮食法,往往只是因为他的一个朋友做了这样的选择,并且成功地减了肥。但如果你仅仅基于一个朋友的经验就选择尝试某种饮食法,那么你基本上就等于是在说,你相信你在所有相关的各方面条件上都与你的朋友相似:年龄、遗传、家庭环境、以往的饮食习惯等,这里面包含的假设就太多了。

丹尼尔的试验的另一个关键点是它具有前瞻性:两个小组是事先选择的。相比之下,假设你在一个试用品广告中看到有20个人说他们因采用了某种饮食法而成功减了肥,这看起来似乎是一个相当大的样本,因而一些观众可能会认为这是一项令人信服的证据。但是,这实际上就等于将自己的决定建立在那些已经取得良好效果的人的经验之上。而你很可能并不知道的是,对每个减肥成功的人而言,都有另外10个跟他条件相似的人也尝试了这种饮食法却没有成功。而显然,这些人是不可能出现在广告里的。

从所有这些方面来看,丹尼尔的试验都极具现代色彩。前瞻性对照试验在今天仍然是可靠科学的一个标志。然而,丹尼尔忽略了一件事:混杂偏倚(confounding bias)。倘若丹尼尔和他的朋友在一开始就比对照组更健康,那么在这种情况下,他们在接受了10天的素食饮食之后的健康状态可能就与饮食本身无关,而是反映了他们原本的整体健康状况。换句话说,如果他们吃了皇家的肉,他们说不定会变得更健壮!

当一个变量同时影响到选择接受处理的对象以及试验结果时,混杂偏倚就产生了。有时混杂因子是已知的,另一些时候它们只是疑似存在,在分析中以“潜伏的第三变量”出现。在因果图中,混杂因子非常容易识别。在下图中,位于这个叉接合中心的变量Z就是X和Y的混杂因子。(稍后我们将看到一个对于混杂因子的更通用的定义,但这个三角形是最容易识别,也是最常见的一种情况。)

混杂的最基本形式:Z是X和Y因果关系的混杂因子。

“混杂”这一术语在英语中的原意是“混合”,我们可以从图中理解它为什么叫这个名字。在上图中,真正的因果效应X→Y与由叉接合X←Z→Y诱导的X和Y之间的伪相关混合在一起。举个例子,假设我们准备测试一种药物,而在试验过程中,我们让比对照组平均年龄更低的一组患者服用了这种药物,那么年龄就成为这一试验的一个混杂因子,或者说潜伏的第三变量。如果我们没有关于年龄的数据,我们将无法从药物的虚假效果中区分出药物的真实效果。

不过,反过来也是正确的。如果我们确实测量了第三变量的数据,那么我们很容易就能区分出真实效果和虚假效果。例如,如果混杂因子Z是年龄,而我们分别比较每个年龄组的处理组(treatment group)和对照组(control group)。[1]然后,根据各个年龄组在目标总体中所占的百分比对每个年龄组进行加权,我们就可以计算出药物的平均效果。这种补偿方法是所有统计学家都很熟悉的一种方法,它被称为“Z调整”或“Z控制”。

奇怪的是,统计学家既高估又低估了为可能的混杂因子进行统计调整的重要性。高估它,是指他们经常对过多的变量进行控制,甚至控制了不该控制的变量。最近,我偶然读到来自政治博客作者埃兹拉·克莱因的一段话,他在其中非常清楚地阐述了这种“过度控制”的现象:“你在各种研究中都能看到它。‘我们控制了……’,然后一张关于被控制的变量的列表就开始了,而且这个列表往往被认为越长越好:收入、年龄、种族、宗教、身高、头发颜色、性取向、健身频率、父母的爱、偏好可口可乐还是百事可乐……就好像你能控制的东西越多,你的研究就越有说服力,或者至少看起来如此。控制可以带来专一性和精确感……但有时,你控制的东西过多了,以至于在某些时候,你最终控制了你真正想要测量的东西。”克莱因提出了一个合理的担忧。统计学家对于应该控制和不应该控制哪些变量感到非常困惑,所以默认的做法是控制他们所能测量的一切。当今时代的绝大多数研究都采用了这种做法。这的确是一种可轻松遵循的、便捷的、简单的程序,但它既浪费资源又错误百出。而因果革命的一个关键成果就是终结这种混乱。

同时,统计学家又在很大程度上低估了控制的意义,即他们不愿意谈论因果论,即使他们进行了正确的控制。这也与本章我希望传达的观点相悖:如果你在因果图中确定了去混因子(deconfounder)的充分集,收集了它们的数据,并对它们进行了适当的统计调整,那么你就有权说你已经计算出了那个因果效应X→Y(当然,前提是你可以从科学的角度清楚地阐释并捍卫你的因果图)。

统计学家处理混杂的传统方法则与之截然不同,这些方法大多建基于随机对照试验,这是费舍尔极力主张的观点。这一主张本身完全正确,但费舍尔提出这一主张并不是出于一个完全合理的原因。随机对照试验确实是一项极好的发明——但直到最近,追随费舍尔脚步的几代统计学家仍然无法证明他们从随机对照试验中得到的结果就是他们想要得到的东西。他们缺乏一种语言来说明他们所寻找的东西,也就是X对Y的因果效应。本章的目标之一就是从因果图的角度来解释,为什么随机对照试验能让我们估计出X→Y的因果效应,同时免除混杂偏倚的影响。一旦我们理解了随机对照试验起作用的原因,我们就没有必要再将之奉若神明,把它当作因果分析的黄金标准,要求所有其他方法都必须以此为参照。恰恰相反,我们会领悟到这一统计学家所谓的黄金标准实际上源自更基本的原则。

本章还将阐明,因果图使分析重心从混杂因子向去混因子的转变成为可能。前者引发了问题,后者则解决了问题。这两组因子可能存在部分重叠,但并非必须重叠。如果我们收集到了去混因子充分集的数据,那么即使我们忽略了一部分甚至所有的混杂因子也无关紧要了。

因果革命允许我们超越费舍尔的随机对照试验,通过非试验性研究推断因果效应,其主要途径就来自这种分析重点的转变。它使我们能够确定应该控制哪些变量,使其成为去混因子。这个问题曾让理论统计学家和应用统计学家困扰不已,几十年来,它一直是该领域的一个致命弱点。这是因为混杂与数据或统计学无关,它是一个因果概念,属于因果关系之梯的第二层级。

发明于20世纪90年代的因果图方法已经完全解决了混杂问题。特别是我们很快就会介绍的一种被称为“后门标准”(back-door criterion)的方法,它可以明确识别出因果图中哪些变量是去混因子。如果研究者能够收集到这些变量的数据,那么他就可以对这些变量进行统计调整,从而在不真正实施干预的情况下对干预的结果做出预测。

事实上,因果革命比这走得更远。在某些情况下,即使我们没有去混因子充分集的数据,我们也可以控制混杂。在这些情况下,我们可以使用不同的统计调整公式(不是传统的统计调整公式,因为传统的公式只适用于后门标准)消除混杂。我们将在第七章讲述这些令人振奋的进展。

在几乎所有的科学领域中,混杂都是一个历史悠久的问题,但直到最近,我们才认识到这个问题需要因果的而非统计的方法来解决。直至2001年,某权威期刊的一位审稿人还在批评我的一篇论文时坚称“在标准统计学中,混杂处理有着坚实的理论基础”。幸运的是,这类审稿人的数量在过去10年急剧下降。现在,至少在流行病学、哲学和社会科学领域,研究者已经达成了普遍的共识:(1) 混杂需要,也具备一个因果解决方案;(2) 因果图提供了一种完整的、系统的方法引领我们找到那个解决方案。我在此宣布,深受混杂困扰的时代已经结束了!

图为朱迪·珀尔与达纳·麦肯齐著《为什么:关于因果关系的新科学》(中信出版集团股份有限公司,2019年)书影。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
计量经济学 | 随机干预试验法
耿直等:因果推断的统计方法(节选)
论文中统计报告的注意事项:多因素模型和诊断试验
【思想篇】决定论 - 六西格玛的核心思想
DOE的应用方法,拿走不谢!
【1091】混杂因素与交互作用杂谈!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服