方法新论 | 胡悦：实验室实验：政治科学研究的一种有效方法?

实验室实验：政治科学研究的一种有效方法?

提要：

目前，因果推断已成为政治科学研究的重要发展方向。在开展因果推断的各类方法中，实验室实验又以其设计严格遵循因果逻辑而被誉为因果推断的“理想模式”。本文系统阐释了实验室实验的设计规范和实施逻辑，展现了这一方法在政治经济学、政治心理学、政治行为学等领域的应用模式和亮点，并讨论了实验室实验方法的研究效度“内高外低”这一常见认识的片面性。本文指出，基于科学研究方法的效度理论，实验室实验设计可以实现内部效度和外部效度“双高”，并进一步讨论了达到这一目标所需遵循的设计要求和技术条件。本文还结合中国政治学研究的实际指出该方法在推进中国学术界在政治行为、政治认知等方面的研究潜力，并阐明了它与前沿数据科学和大数据技术相结合的发展路径。

作者简介：

胡悦，清华大学社会科学学院

文献来源:

《国外理论动态》2021年第6期

*Political理论志周末版正式改版，周六仅推送一篇在社会学、政治学、国际政治和政经学科具有一定代表性意义的最新研究成果

本文作者胡悦

一、引言

政治科学发展至今，始终伴随着对研究设计的科学性的探索和对研究方法的革新。进入21世纪以来，政治科学研究明显呈现出由相关性研究转向因果性研究的趋势。政治学者们愈发不满足于仅对各种要素间的关系强弱进行确认，而逐渐投身于对变量间的因果效应以及机制的探讨之中。诸如时间序列分析、断点回归、双重差分法等研究方法也得到快速传播和广泛应用。其中，实验法这一源于自然科学的因果推断方法，因其设计逻辑明确、科学性强，尤为引人注目。迄今为止，已有多本专著介绍和讨论实验方法在政治学领域的应用。在2016—2020年间，政治学三大国际顶刊《美国政治科学评论》(American Political Science Review)、《美国政治科学杂志》(The American Journal of Political Science)以及《政治学杂志》(Journal of Politics) 上发表的研究和应用实验方法的文章也已多达 268 篇。

与此同时，中国国内研究者对实验方法也表现出了极大热情，国内期刊发表了许多引介和应用这一方法的文章。但有趣的是，现有文章多集中于调查实验(survey experiment)和田野实验(field experiment)这两种从实验方法派生出来的模式；而对实验方法的根本模式——实验室实验(laboratory experiment)——的讨论和应用却并不多见。人们对实验室实验仍存在一些常见的认识谬误。特别是，很多教科书和研究设计者认为，实验室实验'虽然内部效度高，但外部效度低”，因而无法真实反映政治现实并得出对政治实践有借鉴意义的结论。殊不知，实验室实验的外部效度并不一定低于其他方法，同样，也并不是所有实验都能保证内部效度高。

针对这些常见的谬误，本文系统讨论了实验室研究设计的基本逻辑和原则，以期展示其在政治实证研究领域的应用潜力。文章着重讨论了两个基本问题：第一，实验室政治研究是如何对政治现象或因素展开因果推断的？第二，研究者应如何正确理解实验室实验的效度优势并在设计中加以应用？本文提出，根据研究效度理论，那种认为实验室实验的效度“内高外低”的看法并不全面。虽然这种方法确有其局限性，但只要精心设计、妥善实施，仍能为因果推断研究提供强有力的支持，是值得在政治科学乃至整个社会科学领域进行推广的一种重要方法，在有关中国政治的实证研究中更是具有广泛的应用空间。同时，本文也提出，方法论学者也应在清楚认识实验室实验的优势和局限的基础上，不断与数据科学、大数据技术等前沿理论和方法相结合，以扩大实验室实验的应用领域，推动其为实际政治问题研究做出贡献。

二、实验逻辑与政治学实验室实验

实验是建立在遵循“反事实”(counterfactual)逻辑之上的因果推断方法。实验室实验则是依照该逻辑在特定范围（实验室）内构架反事实对照的一种研究设计模式。因此，理解实验逻辑是理解和应用实验方法以及实验室实验模式的重要前提和基础。

(一) 实验逻辑

实验逻辑是在自然科学研究中常见的研究设计逻辑。耶日·内曼(Jerzy Splawa Neyman)和唐纳德·鲁宾(Donald Rubin)将其进行数学规范化，提出了因果推断的重要理论——内曼—鲁宾因果理论(Neyman－Ｒubin Causality Theory)，也被称为鲁宾因果模型(Rubin Causality Model，RCM)。这一模型被引入社会科学后，它很快就成为该领域进行因果关系研究的基础性理论。鲁宾因果模型将作用因素或干预因素(treatment variable)对个体 i 的因果效应定义为该因素存在时发生的结果Y1i与它不存在时可能发生但实际并未发生的结果(即反事实结果)Y0i之间的差异δi，即

δi=Y1i－Y0i

然而，这一定义在实证层面不是自足的，需要依靠特殊的假定才能成立。这是因为在实际观察中，干预因素要么存在，要么不存在，所以研究者不可能同时观察到 Y0i 和 Y1i 。在这种情况下，干预因素对单一个体的因果效应δi是无法被直接观测到的。因此，研究者只能谋求在群体层次上对因果效应进行估测。而若想这种估测在统计学上可行，就需要引入一个关于个体的强假定———鲁宾称之为“个体处理稳定性假定”(Stable Unit Treatment Value Assumption，SUTVA)。“个体处理稳定性假定”规定，干预因素对群体内个体的作用具有针对性和同质性。此假定之所以是一个强假定，在于它对观测因果效应的对象和环境都有严格的限制。首先，它要求干预因素具有针对性，即干预因素只会改变单一个体，而与其他个体是否受到作用无关。其次，对单一个体的这种作用对于每个个体的影响又必须是同质的，差别仅是个体受影响的大小而已。唯有这样，我们才能合理运用统计学，通过对多个受干预个体的观察来估测效果，并将其与未受干预群体进行比较。再次，“个体处理稳定性假定”要求，干预因素发生作用的方式必须是严格一致的。譬如，在估测信息对选民决策的影响时，如果选民获得信息的方式存在差异性（比如，有的是道听途说听来的，有的是从报纸上获悉的），那么其结果则可能不是由同一种因果效应导致的，因而也就不能将它们放在一起来估测因果效应。从次，干预因素的存在与否也必须是可被观察到的。只有同时获得干预因素存在和不存在时的数据，才能对观察结果进行比较，进而推断该因素的因果效应存在与否以及其大小和方向。最后，干预因素的作用必须出现在实验对象 (subjects，也称实验被试)作出决策和形成行为结果之前，而不能同时或在其之后发生。譬如，在测量信息对选民的投票意愿产生的效应时，如果选民在不断接受信息的过程中就已经决定了是否投票，而非等到获得所有信息后才作出决定，那么研究者则无法根据鲁宾因果模型来推断信息对选民的意愿产生的因果效应。这些严格的限制意在确保因果效应的可观察性，但这样一来，传统的社会科学研究方式便很难完美地实现这种因果推断了。因为，即使在所谓的“自然实验”(即以特定时间点为界限，比较该时间点之前与之后的差别，多用于政策研究)场景中，也很难保证干预因素对单一个体的作用不会影响到同一目标人群中的其他成员。而在实验逻辑基础上发展形成的实验论证(experimental reasoning)方法则能很好地兼顾这些限制性条件。其中，又以实验室实验能最大限度地满足“个体处理稳定性假定”的各项要求，并兼顾了因果推断的准确性和可操作性。

(二) 实验室实验

实验室实验是实验逻辑在实证研究中最流行的三种应用形式之一，另外两种是田野实验和调查实验。相比田野实验和调查实验将被试放置于其生活的自然环境中，实验室实验对实验场地和时间有着更严格的控制，通常是在独立的实验室中进行。而且，整个实验过程都必须在研究者的全程监控和指导下完成。从这一点看，实验室实验更接近自然科学的实验模式。当然，在实际操作中，这三种实验方法之间也并非界限分明。特别是在社会科学研究中，实验室实验往往并不需要专门的实验室；教室、活动室或其他独立空间都可以成为实验场所。而对被试的个人信息及实验效果的收集也经常采用问卷调查的方式。因此，实验室实验与其他两种实验方式的区别从表面上看是实验的空间和时间上的选择差异，但它在本质上其实体现了研究者对于时间和空间所包含的信息的理解与态度。在田野实验和调查实验中，研究者刻意将被试放置于熟悉的环境中，期望他们的反应更接近于其在现实生活中的反应。而实验室实验则强调控制环境及其他非实验要素，以求最大限度地排除干扰因素，从而实现对干预因素的因果效应的准确测量。

实验室实验在设计上可能千差万别，在被试的选择以及干预过程的设定上也没有固定程式，但无论如何，它仍有一些必须遵守的基本设计原则。这些设计原则主要包括：首先，实验的目标人群以及核心干预因素必须明确，然后据此决定被试的来源及具体的干预模式。其次，研究设计必须充分考虑对可见的干扰变量的控制，并通过随机分配控制组和实验组等方法对不可见和难以控制的干扰变量进行进一步的剔除。这里需要强调的是，随机分配在实验室实验中扮演着非常重要的角色，但它并不是排除干扰变量的万灵药。这一点将在后面讨论实验室实验的效度时详加阐述。最后，研究者需要对控制组和实验组在接受干预因素影响之前与之后的态度和行为表现根据统计原则进行跨组比较（以及获得 Yi1－Yi0 的群体期望值），据此判断干预因素与行为态度变化之间是否存在因果关系。

(三) 实验室中的政治科学研究

实验在政治科学研究中并不是新方法。它的应用最早可以追溯到1926年哈罗德·戈斯内尔(Harold Gosnell)对芝加哥市长选举的研究。但该方法，尤其是实验室实验一直到1950年代才受到学界普遍重视。彼时行为主义革命风起云涌，实验政治学的发展也迎来了第一个分水岭。一方面，相关实验研究成果开始出现在《美国政治科学评论》、《冲突解决杂志》 (Journal of Conflict Resolution)等主流政治学刊物上。实验室实验也开始被政治学者用于对公共产品分配和国家间博弈等议题的研究。但另一方面，仍有相当一部分学者坚持认为，实验室实验“过于依赖人工设计，而且被试人群不足以代表任何目标人群”，故而不应在政治科学研究中使用。一直到1970年代，对实验室实验和实验政治学的排斥才随着政治心理学的兴起而有所缓和。1970年，著名的《政治学实验研究》 (Experimental Study of Politics)创刊。在随后的几十年中，基于实验室实验方法的政治科学研究进入稳步发展阶段，并在选举行为、公共舆论、政治传播等诸多研究领域得到广泛应用。当前的实验政治学已经形成三种独特的模式：政治心理学模式、政治经济学模式以及统计学模式。其中，实验室实验在政治心理学模式和政治经济学模式的研究中应用较多。统计学模式研究对被试样本的规模和成分都有要求，因此常常采取调查实验或田野实验的形式。政治心理学实验多用于考察特定因素对个体态度或决策产生的因果效应，其通常模式是将实验对象集中到一个封闭和独立的实验场所，在随机分配控制组和实验组后，通过精心筛选和制作的干预信息(如政治新闻或候选人背景材料等)将被试带入一个想象性情境 (hypothetical situation)中，并要求其在这一情境中作出特定判断或决策(比如，是否支持某项政策或某个候选人)。研究者再通过对比控制组和实验组的决策结果来考察干预信息是否对被试造成影响。斯蒂芬·安索雷布哈尔(Stephen Ansolabehere)和尚托·延加(Shanto Iyengar)对于负面政治新闻的研究即是这种应用的一个典型案例。研究者在1990年美国加利福尼亚州州长选举期间给实验组和控制组同时播放了一条关于候选人是否同意在该州进行近海石油开采的新闻(近海石油开采会给当地带来环境隐患)。研究者严格控制实验室环境，以保证被试之间不会相互干扰，且实验组和控制组接受干预信息时的视听背景都是相同的。唯一的不同之处在于，给控制组提供的新闻中包含着“同意”、“保护”等正面词汇，在给实验组提供的新闻中，这些正面词汇被替换成“反对”、“摧毁”等负面词汇。在两组人同时接受信息后，被试被要求报告其是否参与此次州长选举投票。通过对两组人的比较，研究者发现实验组更加不愿参与投票，因而佐证了负面新闻在政治传播中的反动员效应(demobilizing effect)。

政治心理学实验通常考察单一因素对被试的心理影响，其设计通常不涉及场景变化或被试的多次选择。相比之下，政治经济学实验则对个体间的互动以及多次选择策略更感兴趣。另外，政治经济学实验也较少使用模拟现实的想象性情境或人为信息，而是根据形式模型及其数理推论进行实验设计。比如，安娜·鲍希(Anna Bassi)等人在研究选民身份与投票倾向时，首先对选民身份比例对投票的影响进行了形式模型推演，然后依此将60名被试分成12个组进行投票游戏，对形式模型得出的每一种可能结果进行检验。实验中，被试被给予一种选民身份，该身份对应一个代表此身份的候选人。被试被告知其参与实验获得的奖励将与选举结果密切相关。在整个实验中，每组被试成员的身份、互动形式以及最终奖励完全根据之前形式模型中涉及的条件进行部署，甚至区分了被试对同伴的身份信息的知悉程度。此外，被试完全了解，他们进行的所谓投票并不需要借助任何现实的投票经验，也不会对政治现实有任何影响。

当前实验政治学的主战场是政治行为研究领域——尤其是对选举行为的研究。除了上面提到的例子，戴安娜·穆茨(Diana Mutz)通过政治心理学实验探讨了政治信息的全面性对选民倾向产生的因果效应；苏加托·达斯古普塔(Sugato Dasgupta)和肯尼思·威廉姆斯(Kenneth Williams)通过政治经济学实验研究了民意测验对选民选择候选人偏好的影响；杰弗里·蒙戴克(Jeffery Mondak)及其同事在1996—2006年间通过一系列政治心理学实验系统考察了候选人资质对选民投票行为的影响。这些都是实验室实验在政治学领域得到应用的典型范例。随着认可度的提高及其方法的进步，实验室实验也被逐渐应用于政治行为研究之外的领域。政治经济学实验模式的应用在国际关系学领域已经得到认可，该领域的研究者通过个体和组别互动来研究国家间的博弈关系。譬如，莫顿·多伊奇(Morton Deutsch)通过互动实验对三种军备竞赛策略的考察，以及弗朗西斯·贝尔 (Francis Beer) 及其同事对和平条约及战争博弈的研究等。政治心理学实验也在国际关系研究中得以应用，例如尼西米·杰瓦(Nehemia Geva)、亚历克斯·明茨(Alex Mints)及其同事运用实验对民主和平论、外交决策的研究等。在比较政治学领域，既有唐娜·巴里(Donna Bahry)、阿尔方·范德克拉格特(Alphone van de Kragt) 等学者结合博弈论和政治经济学实验来研究公共产品的分配过程及其影响因素，也有埃弗伦·佩雷斯(Efrén Pérez)等学者通过政治心理学实验对语言政治、性别议题等进行探讨。

三、效率最大化？实验设计的规范与谬误

实验室实验在政治学领域得到越来越多的应用，并成为推进该领域因果关系研究的重要手段。然而，对这一方法的质疑也从未停止过。例如，一些研究者将实验方法视为因果推断的“理想模型”，但也有诸多批评者认为，于规定时间在封闭实验室内对一个方便样本进行的实验研究并不能为人类社会中持续的、复杂的政治决策和行为提供可靠证据。简言之，实验室实验在政治科学研究方面的效度是值得怀疑的。

(一) 什么是研究效度

包括政治学家在内的社会科学工作者长期以来以效度(validity)来衡量特定分析方法是否能够为验证理论推断提供可信证据。多数学者认可唐纳德·坎贝尔(Donald Campbel)对效度的如下定义：一种实证研究设计或方法的效度是指基于该设计或方法作出的知识推断与真实情况具有的近似性 (approximate truth)程度，即我们能在多大程度上相信实证推断能够反映人类社会的真实规律。效度又可区分为“内部效度”(internal validity) 和“外部效度”(external validity)。其中，内部效度是指基于实证研究的知识推断与目标人群的真实态度或行为规律的近似程度，而外部效度则指实证推断在多大程度上能适用于目标人群以外的其他人群。

在给出基本定义的基础上，坎贝尔又将内部效度细化为三个部分：建构效度(constructive validity)、因果效度(causal validity)和统计效度(statistical validity)。建构效度涉及实证推断的概括性，旨在评价一种研究设计是否能合理且有针对性地评鉴目标理论。因果效度类似于经济学中的“识别问题”(identification problem)，用以考察实证设计是否能有效排除干扰因素，为确定因果效应或机制提供准确证据。统计效度指的是，研究的核心因果因素之间在实证层面是否具有显著且稳定的统计关系。对统计效度的最常见的检验方式是对同一目标人群样本进行重复检验。有必要指出的是，效度是一个整体概念，上述分类只是为了方便研究者从不同侧面展开考察。因此，各种效度之间不是孤立存在的。比如，研究设计的建构效度高，与理论相切合，在统计层面上因果变量的关系才能稳定，统计效度才能高。而统计效度又与研究设计是否有效地控制了干扰变量、达到了高因果效度紧密相关。另外，内部效度是外部效度的前提，如果没有对目标群体作出合理估测，那么将相关估测拓延到目标群体以外的群体就没有意义。

(二) 实验室实验的效度评价

对实验室实验的效度最常见的评价是，它具有“很高的内部效度，但外部效度很低”。这种论断将实验室实验内部效度高归功于实验设计对干扰变量的控制 (如随机分配控制组和实验组等) ，而将外部效度低归咎于被试样本的非代表性以及实验室环境与现实环境的明显差异。但如果根据效度的定义及其分类仔细加以考量的话，就会发现上述论断是不全面的，甚至具有误导性。

首先，并不是所有的实验室实验都能实现高的内部效度。2015年前后爆发的可重复性危机就集中体现了实验室实验内部效度的“失守”。在社会科学领域，实验方法在心理学和经济学中的应用最为广泛，其实验设计也相对规范。但2015年至2016年的一系列重复实验揭露，大量发表在权威学术期刊上的心理学和经济学实验是不可复制的。一项针对心理学三大顶级期刊上100篇原创文章所涉及实验的研究发现，60%以上的重复实验的结果与原作不符。另一项针对67篇来自13家顶级经济学期刊的文章的研究也揭露出一半以上的实验经济学研究没有经受住重复实验的考验。这些不可复制的实验基本都采用了随机分配方式和其他常规的实验设计。但其结果无法在目标人群中重现———换言之，它们并不具备内部效度( 尤其是统计效度) 。同样的现象在政治科学研究中也存在。譬如，今井耕介 (Kosuke Imai) 就复制了艾伦·戈伯 (Alan Gerber) 和唐纳德·格林 (Donald Green)关于不同模式的政治动员对鼓动选民投票的影响的著名实验，但得出了不同的结果。

同时，在实验室实验中，随机分配方式也并不是排除所有干扰变量的万灵药。根据卡利·摩根 (Kari Morgan) 和唐纳德·鲁宾的测算，在一个实验室实验中，如果假定除干预因素外，研究现象仅与10个干扰因素相关 (这么低的数量在错综复杂的社会政治现象中几乎是不可能的)，那么单纯依靠随机分配的方法，控制组与实验组在干扰因素方面仍存在显著差异 (即没有排除干扰变量的影响) 的可能性超过40%。换言之，这一采取随机分配方法的实验有四成以上的可能性会出现明显的不平衡(imbalance)问题，进而直接影响实验结果的可靠性。

因此，方法论学者建议，研究者除了确保采用常规实验流程(如随机分配)，还应综合使用各种设计手段来保障实验设计的内部效度。而当前实验方法的发展和实践也极大丰富了实现这一目标的工具箱。譬如，设计者可以通过计算机成像技术、脑部核磁共振、脑电图等高科技手段提高因果效应观测的精准度，进一步降低可见的干扰因素的影响，进而提高实验设计的因果效度和统计效度。对不可见因素，研究者则可采用行为心理学方法，使用或阶段性使用物质和金钱奖励、选择特定实验时间和环境以及眼动仪及其他阈下直觉测量手段等来控制和排除这些因素。至于建构效度，丽贝卡·莫顿(Rebecca Morton)指出，基于形式模型设计实验，将理论和逻辑上的假定性因素 (包括上文提及的“个体处理稳定性假定”)纳入到实验过程中，可以避免理论与实证之间的脱节。这种实验模式不仅提高了实验的建构效度，也超越了传统随机对照试验的因果推断的局限，从而推动了研究重心由因果效应向因果机制转变。

实验室实验如果没有缜密的设计和技术保障，其内部效度不一定高。同样，它的外部效度也不是天然就是低的。实验室实验最常受诟病的、导致其“外部效度低”的问题有两个。一个是对被试来源的担忧。很多实验室实验的实施对象都是学生。批评者认为，学生只是整个社会群体中的一小部分，他们本质上只是一种方便样本。基于这样的样本得出的推断不能推广到全体国民。然而，如果该问题的本质仅是学生样本的代表性不足的话，那么这仍然是对目标群体的推断效度的考量——这不是外部效度问题，而是内部效度问题。同时，方法论学者已经对样本的局限性能导致多大的结果偏差进行了各种对比研究。他们发现，至少在某些议题上，学生样本的局限性造成的影响并不像通常认为的那么严重。譬如，马基恩·埃加斯 (Martijn Egas)和亚诺·里德尔(Arno Riedl)对比了学生样本与网民样本在一场涉及公共产品的博弈中的表现，发现二者的表现极为相似。辛迪·卡姆(Cindy Kam)等分别从学校和本地社区的代表性样本中选取实验被试，发现除了年龄和性别，两组被试在其他方面都没有显著差异。当然，这不是说实验设计者就可以无视选择方便样本时所存在的局限，但研究者应将这一局限性与学生样本给研究带来的可能性和效益结合起来加以考虑，寻找两者之间的平衡点。值得一提的是，技术的进步业已允许研究者在更广泛的人群中展开实验，譬如，李·西格尔曼(Lee Sigelman) 等人针对民选官员的领导力展开的实验、詹姆斯·哈比亚利马纳(James Habyarimana)等人在乌干达的坎帕拉进行的族群视角下的公共产品分配实验以及查尔斯·贝勒马尔(Charles Bellemare)等人在荷兰进行的最后通牒博弈实验等都是在从具有代表性的样本中选取的被试中进行的。

另一种对实验室实验的外部效度的质疑来自对所谓实验效应(experimental effects)或者说实验者效应(experimenter effects) 的担忧。批评者认为，实验室是完全人工构建的非现实环境。在多数情况下，被试清楚知道自己是实验对象以及何时开始和结束实验。这一点会影响其在实验中的选择和决策，进而做出与现实中不同的表现。然而，由于这种现象不一定涉及目标人群以外的人群，因此它实际上也不是一个严格意义上的外部效度问题，而应是一个生态效度(ecological validity) 问题。生态效度与内部效度和外部效度存在本质性的不同。它并不关注实证推断与真实规律的联系，而是考察研究环境与实际环境的相似程度，因此也被称为“现世实在主义”(mundane realism)、“情景近似性”(contextual congruence) 或“实验的田野性” (fieldness of an experiment) 。

实验的生态效度高，并不一定代表着以其为基础的论断就能够拓展到目标人群以外的群体，但由于对现实的模拟程度时常与实验的准确性和普适性密切相关，因此生态效度得到了实验设计者和方法论学者的普遍关注。这实际上直接催生了调查实验和田野实验这两种在被试的自然生活环境中进行实验的方法。而就实验室实验而言，生态效度低也不是无法打破的梦魇。大量的社会科学研究已经探索出至少五种行之有效的方法来提高实验室实验的生态效度。第一，掩盖实验目的。研究者可以不向被试透露实验的目的和具体流程，以此方法来避免被试根据干预因素或实验起止时间改变自己的选择策略和行为方式。第二，使用现实例子作为干扰变量。实验设计者可以运用生活中的实际信息或事件作为实验的刺激元素，这样有助于在测试过程中更好地反映被试在现实生活中的经验。很多政治心理学实验都已采用这种方法。第三，模拟现实环境。虽然实验室实验对实验环境有着严格限制，但仍允许研究者将现实中常见但与实验无关的信息和条件加入实验流程，便于被试更好地带入情景和调动自己的真实感受。譬如，在关于政治新闻的研究中，研究者除了播放政治新闻，还可以夹杂进经济新闻、本地时事等其他新闻类型，使被试更加贴近平时接受新闻信息时的媒体氛围。第四，物质刺激。研究者通过物质刺激来调动被试更加积极地参与到实验过程中去，并有更强的意愿来遵守实验设计者给出的指令。当然，这种方法也应根据实验目的酌情实施。心理学家已经发现，物质刺激对于被试完成有困难的任务往往更有效；对于完成简单的判断和任务而言，物质刺激反而没有必要，有时甚至会产生反作用。第五，非自然环境或许正是某些研究所需要的。譬如，在前文提到的鲍希等人关于选民身份与投票意愿的研究中，被试的选民身份既没有参照现实情况，也没有进行随机分配，而是根据形式模型的条件进行了人为划分，从而全面考察了具有不同特征的群体内选民的行为规律。因此，正如诺贝尔经济学奖获得者弗农·史密 (Vernon Smith)指出的，实验中所有加入和省略的变量都可以是干预因素的一部分。研究者在实验设计过程中应充分考虑和利用它们对实验结果的综合作用。

综上所述，无论是拓展被试样本，还是提升生态效度，都有助于增加实验设计的内部效度和外部效度。而单就外部效度而言，其关注的是研究推断能否超越目标人群，因此对它的考察和提升永远是经验性的而非结论性的。只要研究的目标人群和样本不是人类全体，外部效度问题就将永远存在。这一问题也不只是实验室实验研究方法面临的难题，而是对所有类型的实证社会科学研究都会碰到的挑战。容易被忽略的一点是，由于实验室实验所要求的样本量小、研究时间短而且结果明确，它往往比其他研究方式更容易提升外部效度。譬如，前文提到的安索雷布哈尔和延加在加利福尼亚进行的政治传播实验。研究者后来将该实验结果与美国总统选举、各州参众议员和州长选举等多种选举的观察结果进行比对印证，将基于一州的目标人群的实验判断扩展为对全国的选举情况的认识。贝内迪克特·赫尔曼 (Benedikt Herrmann) 更是将同一组实验推广到16个不同国家，超越了经济、政治、文化界限，获得了更广泛人群中公共产品分配规律的实证证据。此外，阿尔文·汪(Alvin Wang) 和弗洛里安·延奇(Florian Jentsch) 以及约翰·泽连斯基 (John Zelenski) 等分别对被试反应进行了跨时间的比较。伊格纳西奥·埃斯彭达 (Ignacio Esponda) 和伊曼纽尔·韦斯帕 (Emanuel Vespa) 甚至跨越了研究单元，发现在同一选举实验中个体层面和群体层面的决策机制存在差异。这些研究都在不同范围和维度提升了实验室实验的外部效度。这就是说，实验室实验外部效度低的问题可以通过多种方法得到解决。

四、效度视角下的政治科学实验研究

本文对实验室实验的原理、应用及其在政治科学研究中的效度进行了讨论。本文的研究表明，实验室实验是一种成熟的因果推断方法，它比其他传统的实证研究方法更为贴合因果效应和因果机制的理论逻辑。所谓实验室实验“内部效度高、外部效度低”的论断有失全面。当然，它也并不是完美的因果推断工具，其内部效度和外部效度都依赖于研究者对实验的精心设计和实施，并需要研究者将实验与具体的研究方向和主题相结合。然而，研究者不应因实验被试的样本特性和研究环境的特殊要求而忽视或贬低这种方法在政治科学实证研究中的作用与价值。在政治科学方法论学者和实验研究者的共同努力下，实验室实验方法也将不断进步，突破原有局限，在更广泛的政治科学研究领域做出贡献。

目前，国内政治学者对实验方法已有了相当的了解，但在应用层面相对偏重于调查实验和田野实验。实验室实验仍有待进一步应用和发展。本文将从以下四个方面探讨实验室实验与中国政治科学研究的结合路径。

第一，借鉴国际经验，推动中国特色的政治行为学研究。实验室实验在政治学中最大的应用领域是政治行为研究。大量政治参与研究和政治经济学实验为该方法在此类议题中的应用积累了丰富的素材与经验。在当前的中国，政府治理和社会治理面临着诸多新挑战，多样化的政治互动与交流已成为重要的时代特征，城乡、区域、阶层、群体间的不平衡和不充分发展成为施政者关心的核心问题。如何理解这种不平衡和不充分发展的内在机制？什么才是影响公民政治参与、疏解社会矛盾的关键因素？结合中国公民特征的实验室内的群体决策实验和政治传播实验将为了解这些问题内部的因果关系和作用机制提供帮助。实验室政治学还将为发展当代中国复杂社会、经济、政治条件下公民的政治参与动因和规律、党内民主和政府制度建设以及公共产品的有效供给和合理分配等诸多方面的理论提供可靠的实证基础。

第二，运用政治心理学实验，深入了解复杂社会经济环境下的国民心态。一般认为，知识和态度是驱动人类参与政治互动、选择政治行为策略的原动力。以政治心理学为基础的实验室实验为了解两者之间的因果联系提供了一条有效途径。情绪控制和信息接触实验可以有效检测特定的语言与非语言表达形式对人类行为的影响。有研究指出，中国社会正处于高社会资本、高政治信任、高政治能动性与激烈的社会政治互动并存的状态。民众的政治心态丰富，且容易受到外来因素影响。及时有效地引导民众的政治心态、疏导社会矛盾和缓和过激舆论是高回应型政府为巩固稳定发展局面需要承担的重要任务。通过政治心理学实验，研究者能有效测量不同政治交流方式对民众态度与行为产生的影响，进而更加深入地了解政府与民众、政府与政府以及民众与民众之间的交流机制。

第三，与前沿科技、大数据的跨学科结合。延加和罗斯·麦克德莫特 (Rose McDermott) 在展望实验政治学的发展前景时不约而同地提到，与先进技术的结合是实验室实验的必然发展趋势。当前，前沿基因科学、生物学、医学技术为测量和理解人类情感与意识提供了新的技术和视角。研究者可以通过核磁共振图谱、眼动仪等手段精确把握人们在接受干预因素时的生理反应和直觉感受。这些高新技术手段与政治实验的结合将为我们了解个体与社会政治环境之间的互动提供新的微观桥梁。这是在非实验室环境中很难展开的研究。此外，近年来大数据研究在我国日趋兴盛，越来越多的大学和研究机构拥有了搜集、挖掘和处理地区乃至全国范围内的大数据的能力。这就为更好地把握实验对象的状态、特点和行为模式创造了条件，以便从被试样本的层面提升实验研究的内部效度、外部效度以及生态效度。同时，利用日趋普及的通讯交流和信息获取设备，也使得在更大范围内实施更为复杂的研究实验成为可能。

第四，因地制宜，推进实验室实验方法的应用。改革开放以来，实证研究在我国政治科学领域获得了长足发展。随着研究的深入，越来越多的学者开始有意识地将实证研究引向对政治现象的内在因果性的探索，包括实验室实验在内的实验研究方法则成为了他们手中的利器，部分大学还建立起了专门的社会科学实验室研究的平台和机构。对方法的重视以及专门机构的设立为开展精准的政治学实验提供了稳定的资金和技术支持、封闭独立的实验室环境以及专业的执行团队和配套设施。在这种条件下，实施实验组与对照组的完全随机分配 (complete randomization)、区块随机分配 (block randomization) 、随机分组的再随机分配 (rerandomization) ，乃至形式模型实验路径 (formal modeling approach) 等多种技术手段都不是难事，从而为政治科学实验室实验的内部效度提供了可靠保障。另一方面，中国多样化的区域社会经济特征和地方政策又为进行分条件、多点重复的实验提供了丰富的被试资源。对这些资源善加利用，即可对实验室实验的外部效度实现多角度检验和有效增益。这些都为在中国实现内外效度“双高”的政治科学实验室实验提供了独有的条件，也为中国的方法论学者尝试新的实验设计和应用技术、以中国的政治实验研究带动政治科学方法的整体进步创造了必要的物质基础。

总之，中国的社会和学术进步从物质、技术和理论多个角度为实验室实验的应用创造了条件，而中国蓬勃发展而又日趋复杂的社会、经济、政治环境又为运用实验室实验进行社会科学研究提供了独特的机遇和舞台。以实验室实验为代表的因果推断研究将为全面推动中国政治科学实证研究以及实现中国特色的政治学研究与世界学术前沿接轨提供重要的方法论支持。当然，倡导实验室实验并不意味着要摒弃调查实验和田野实验以及其他实证和理论研究模式。实验室实验也需要与其他研究方式相配合，才能弥补本身具有的局限性，才能全面而系统地认识中国政治以及人类政治生活的普遍规律。

转载 | 解倒悬

审核 | Anders

终审 | 李致宪

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。