只讲 p 值，不讲效应大小，都是耍流氓！| 协和八

在本系列的之前几集中，我们围绕 t 检验这个主题与大家一起讨论了一系列相关问题，希望大家现在已经对 t 检验（及相应的非参数检验）的理论背景和实际应用有了比较深入的了解。

虽然在具体的使用上，有各种细节问题需要注意，但别忘了我们最初的目的—— t 检验是为了对一组或者两组个体的某个连续变量的平均值（非参数检验则是中位数）进行统计推断。

今天，我们就来从「推断」的角度来讲讲，怎样分析 t 检验（以及相对应的非参数检验）所得出的结果。

好了，现在来问问大家，假设你收集到了一个样本，经过必要的正态性检验和数据转化以后，你对这个样本做了个 t 检验。不论你是用钢笔和草稿纸、查统计用表的老学究，还是 SPSS、SAS 信手拈来的 21 世纪新青年，你首先会看什么？

我仿佛看见了所有人齐刷刷举起的手——

p 值！！

不错。无论如今严肃的统计学家们有多么厌恶这个答案，让我们来面对现实：做完一个统计检验，绝大多数人最关心（甚至说只关心）的就是 p 值。不仅是像我们这样的学术小弱，学术杂志的编辑和审稿人恐怕也是如此（不信你投一篇没有任何一个 p 值小于 0.05 的论文试试？）。

p 值越小，似乎结果就越「显著」，越有价值。而与此矛盾的另一个严酷事实就是，p 值并没有许多人以为的那样有用。

其实我们许久以前就曾讨论过这个话题——「说人话的统计学」系列的开篇第一集便是《你真的懂 p 值吗？》。我们当时讲过，p 值并不能代表你发现的效应（或差异）的大小。也许那时你会觉得有些费解，现在我们已经了解了 t 检验，就让我们以它为例子再来细说一下这件事。

让我们回到《想玩转 t 检验？你得从这一篇看起》中的例子：蓝精灵与格格巫围绕包子的大斗法。已知学校后勤部门指定的食堂包子的重量标准是每个 50 克，而蓝精灵想知道的是格格巫做的包子是否符合标准。我们之前也说过，单个包子重量有一定的随机波动是可以接受的，因此「符合标准」的意思是大量包子的平均质量应该接近 50克，而这正是单样本 t 检验能回答的问题。

于是，蓝精灵在格格巫的窗口随机抽取一批包子，进行单样本 t 检验，进而得到一个 p 值。

我们能从这个 p 值中得到什么呢？

为了更好地说明问题，今天我们来扮演一回上帝——让我们来事先确定格格巫所做包子重量的总体分布，接着用计算机来模拟不同的抽样情况，然后进行 t 检验，看看 p 值的表现如何。

首先我们来想象这样一个情形。假设格格巫的确偷工减料了，他做的包子的总体平均质量实际上是 47 克。我们进一步假设包子重量服从正态分布，且正态分布的标准差是 5 克。因而，根据正态分布的性质，这意味着格格巫做出的包子中，有近 70% 的包子重量在 42 到 52 克之间（均值加减一个标准差），有 95% 的包子重量在 37 到 57 克之间（均值加减两个标准差）。

假设蓝精灵 1 号在格格巫的窗口随机抽取了 10 个包子，根据以上的正态分布总体均值和标准差，我们可以用计算机程序来模拟抽样过程。在某次抽样后，我们得到了以下 10 个包子重量的数据（我们把这些数据称为样本 1 号）：

44.81, 44.96, 51.92, 45.51, 52.72, 44.34, 51.86, 33.49, 47.88, 51.85

正如真实世界中的抽样一样，这只是一个样本。如果我们重复抽样，每一次将会得到稍有不同的样本。

如果我们还有另外一位蓝精灵 2 号，又在格格巫的窗口抽取了 100 个包子（我猜这个蓝精灵是个处女座吃货？），于是我们得到了样本 2 号。这个样本里有 100 个数，把它们一个一个列出来只会让我们眼花缭乱，因此我们把样本 2 号和样本 1 号一起画在下面的图 1 中。

图 1 包子样本1号和样本 2号

蓝色横线代表包子重量的规定标准值 50 克。两个样本中的各个数据点用＋号表示，样本平均值用菱形表示，总体平均值用圆形表示。

有了数据，两位蓝精灵各自对手上的样本进行了单样本 t 检验（标准值为 50，单侧检验）。也像我们一样，他们也第一时间把目光投向了 p 值。样本 1 号和 2 号得到的 p 值分别是 0.1266 和 0.0000025436（2.5436×10^-6）。

因此，在通用的 0.05 标准下，

蓝精灵 1 号会把两手一摊：

「我不能拒绝格格巫包子重量均值与标准值 50 克没有差别的原假设。」

而蓝精灵 2 号则会大声疾呼：

「格格巫克扣伙食证据确凿！」

让我们先停下来想一想，我们做 t 检验最根本的目的是什么？

我们想知道，格格巫做的包子的重量平均值到底和规定标准50克有没有区别。在这个例子里，我们事先已经知道格格巫做的包子的平均重量就是 47 克（图 1 中的圆形图标），比标准少了 3 克。如果我们直接看样本均值，两个样本的平均重量分别是 48.01 和 47.42 克（图 1 中的菱形图标），同样十分接近，而且都比 50 克要少。更进一步说，样本 1 号和 2 号是从完全相同的总体中抽取的。为什么结论会不一样？

首先，这个例子再次展示了，0.05 这个门槛只是学术界一个正在摇摇欲坠的习惯，并非什么具有魔力的数字。我们在《你真的懂 p 值吗？》文末已经讨论过，这里就不再赘述了。

更关键的是，两个样本的差别在于样本量。尽管总体平均重量与标准值的差别（即「效应大小」）没有变，样本 2 的 100 个数据点无疑比样本 1 的 10 个数据点要多得多。就好比你想给自己买个空气净化器，在亚马逊网上看中了两款都是四星半评价，但一个只有 6 位顾客打分，另一个则有 80 位顾客评价，你肯定会觉得后一个更靠谱（如果没有网络水军的话）。

这个例子告诉我们，对于同样的效应大小，更大的样本量会带来更小（更「显著」）的 p 值。对于一个特定的研究问题，按照频率主义统计学的观点，效应大小可以认为是既定（但未知）的。因此，要得到有统计学意义上显著性的结果，我们需要一定的样本量，这正是我们曾经讲过的功效分析（回顾《做统计，多少数据才算够》上集、下集）。下一集我们也会简单介绍如何对 t 检验和相应的非参数检验做功效分析。

在讲下一个例子之前，让我们稍稍说一点题外话。在上集《 t 检验用不了？别慌，还有神奇的非参数检验》里我们提到，如果数据本身来自正态总体，但用了符号秩检验或者秩和检验，会降低统计功效。现在我们利用上面的例子来验证这一点。单样本 t 检验对应的非参数检验是符号秩检验，如果把它用在样本 1 和样本 2 上，我们分别得到的 p 值是 0.1611 和 5.3438×10-⁶。对比上面 t 检验的0.1266 和 2.5436×10^-6，这里的 p 值要更大一些，也就是更不显著。当然，两者给出的结论是大体相似的。

为了进一步说明效应大小、p 值、样本量三者的关系，让我们来再看一个例子。在这个例子里，我们考虑下面两个情形。

第一个情形，我们的格格巫有点凶残，丧心病狂地把包子重量的平均值降到了 20 克。假设包子总体依然服从正态分布，并且标准差保持为 5 克不变。而我们派出的蓝精灵 3 号睡过头了，为了赶着去上第一节课就只抽了 6 个包子。我们把这 6 个包子的重量称为样本 3 号。

而在另一个平行时空里呢，格格巫则是个（基本）守法尽职的好师傅，他做的包子的平均重量是 49.5 克，标准差则为 2 克。然而，负责去抽样的 4 号蓝精灵同学有点儿轴，一大早就蹲在食堂，一直称了 1000 个包子的重量才罢休（试求格格巫的心理阴影面积），因此我们有了样本 4 号。和之前一样，我们把样本 3 号和样本 4 号的数据点画在下面的图 2 中。

图 2 包子样本3号和样本4号

各图标的含义参见图 1

现在，我们再来对样本 3 号和 4 号分别做个单样本 t 检验，得到的 p 值是 3.2216×10^-5和 6.0099×10^-6。按照通常的标准，这样的 p 值都是极其显著的了——如果在自己的数据分析中得到这样的 p 值，我们也许要欢呼雀跃了。光从 p 值上来看，样本 3 号和 4 号所来自的总体均值都与食堂标准 50 克有着统计学意义上非常显著的区别。但是，我们已经知道，两种情形里包子重量的总体分布是完全不同的。因而，产生很低的 p 值的成因也是不一样的。如果是第一种情形，格格巫可就真有点太猖狂了；如果是第二种情形，绝大多数人都不会太在乎那 0.5 克的差别。

但为什么我们会得到相似的 p 值呢？

让我们来再次回顾一下 p 值的定义：

p 值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。

上面，单样本 t 检验的原假设是，包子重量的总体均值不小于食堂制定的标准 50 克（由于是单侧检验）。第一种情形（包子总体均值为 20 克）中我们得到很低的 p 值很好理解，因为样本中的包子重量都在十多二十克左右，如果原假设成立，得到这些包子的概率实在很低。

而对于第二种情形，包子总体均值为 49.5 克，与 50 克的差别微乎其微。如果我们只是拿到了一两个比 50 克略轻的包子，也不会大惊小怪，毕竟总有些随机波动。但是，如果我们称了许多许多个包子的重量，发现大多数都比 50 克轻一些，这样仍会得出很低的 p 值——因为在原假设成立的前提下，包子重量应该围绕 50 克上下波动（甚至 50 克以上的更多）。样本量越大，p 值就越小。极端地说，不管与原假设的差别有多小，只要样本量足够大，p 值总会达到显著的水平。

读到这里，你应该已经明白，为什么 p 值是一个有缺陷的指标。一个很低的 p 值，可以源于很大的效应，也可以来自很小的效应但很大的样本量，还可能是效应大、样本量也大。而决定一个科学发现是否有真正的实际意义（而非统计学意义上的显著性）的，终究是效应大小。比如，对一个治疗丙型肝炎的新疗法，我们关心的是它能治愈多大比例的病人，缩短多少治疗时间，才能和现有疗法做有意义的比较；对于某种药物在孕妇身上的副作用，我们需要知道具体症状的发生率才能做到尽可能最优的利弊权衡；对一个流行病和某个风险因素的关联，我们要评估其相关性是否足够大才能决定是否需要进行公共卫生政策的干预。

当然，怎样的效应大小才有实际意义，也取决于具体的问题。在基础科学研究里，有时比较小的效应也蕴涵着有重大意义的发现。最重要的是，我们要懂得透过 p 值，试图看到现象背后的本质。

因此，不论你是科研论文的作者，还是读者，都请记住（重要的事情说三遍）：

只讲 p 值，不讲效应大小，都是耍流氓！

知道了什么是耍流氓，我们还得知道怎样才能不耍流氓。在下一集中，我们将为大家简要介绍如何找出 t 检验及相应非参数检验的效应大小，以及对这些检验进行功效分析的方法。

注：文中图片为作者自绘。

回复「统计学」可查看「说人话的统计学」系列合辑，

或点击下方标题可阅读本系列全部文章

>>> 干货 <<<