要做ANOVA，样本量多大才够用？

说人话的统计学

前面连续几集讲了各种各样的ANOVA（方差分析）检验方法，而这些内容都是在拿到数据之后该如何分析数据，今天就来说道说道在实验设计阶段，如何决定到底需要采集多少数据。

也许有些读者还记得，在本栏目的开端我们曾经讲过，我们首先要预测可能发生的实验结果，然后依此估算出实验所需要的样本量。这样一个过程，称为功效分析（欢迎重温《做统计，多少数据才算够？（上）（下）》及该文中的黄暴小故事）。所谓统计功效，指的是在原假设（认为效应不存在）不成立的时候，正确地拒绝原假设的概率。换句话说，在实验条件对测量值确实有影响的情况下，能成功检验出这一影响，即数据分析的结果呈统计显著性的概率。我们也可以把统计功效看成是整个实验设计在检验实验假说这件事情上的灵敏度，而功效分析就是为了找出获得期望中的灵敏度所需要的最小样本量。

我们为什么要在做实验之前就把样本量定下来呢？走一步看一步不行吗？

首先，功效分析可以告诉我们需要检验当前假说需要的最小样本量，这样我们就不会做没有必要的数据采集工作，节约实验的资源和时间，最重要的是可以早点发文早点毕业/升职/做人赢啦。比如，导师某天兴致来了，扔给你一个看上去很牛的想法，还信誓旦旦地说该想法一旦实现就会搞个大新闻。这时你做了功效分析，发现要采集一千个数据样本才能验证这一假说。然后掐指一算，即使每天做实验，光搜集数据就需要十年的时间——这说明在现有人力物力的条件下，这样一个实验的可行性太低。及时地避免这种情况，也可以避免资源的浪费。

而且，如果采集的样本量不足，导致功效过低，这时候，即使本来可以有显著性的结果，也变得没有显著性了。比如说，上面这个例子里，导师的想法也许是对的，但是由于条件的限制，你的样本没收集够，结果得到了阴性的结果。这样子不仅前面做的实验算是白费功夫，还得出了错误的结论。在这种情况下，虽然花了时间和精力做实验，对人类知识的贡献还是负的。

如果我们不做功效分析，往往就会凭着自己的主观判断来决定什么时候停止采集样本，这样会导致结论有偏见。

最常见的情况是在做实验的时候采集了几个数据点就开始做统计分析，发现没有显著性，心里觉得不能就这样前功尽弃，于是就再加几个数据点，再做统计分析，直到出现显著性差异才停止实验。

这样做其实犯了多重检验的错误（回顾《要比较三组数据，t检验还能用吗？》），会导致出现假阳性的概率增加，在没有显著性差异的时候误以为有显著性差异。避免这一错误的关键，就在于要提前决定实验样本的大小，而不是根据实验结果调整。而在科研的实践中，这样的错误其实非常广泛，希望阅读了我们「说人话的统计学」系列的读者能避免这个错误。

最后，基于上面这几个原因，现在的基金申请里面也开始更多地要求做功效分析，以达到评估实验成本和可行性，减少主观因素干预实验结果的目的。所以，在科研道路上迟早是要和功效分析狭路相逢的，何不现在就弄明白呢？

讲了这么多，想必大家都认可了做功效分析的重要性，下面就让我们看看在ANOVA检验里面功效分析该如何做。

我们之前在《做统计，多少数据才算够》里面讲到了样本量主要由三个因素决定：统计功效，效应大小还有显著性水平。这不仅在t检验里面成立，在ANOVA里面也一样成立。

同样与t检验类似的是，如果给定统计功效（一般情况下设为0.8），如果所研究因素的效应越大，需要的最小样本量就越小。为了能够客观地描述效应大小，我们希望效应即能够反应组与组之间的差距大小，又能够考虑到数据本身“噪声”的大小，于是在《找出t检验的效应大小，对刷流氓say no》里面引入来Cohen氏 d值来作为效应大小的度量，其定义为：

Cohen氏 d值是用测量的平均值与总体平均值的差值，与总体的标准差的比值。这样做的好处是如果把测量单位从cm变成m，或者从斤变成公斤，并不会改变效应的大小。

ANOVA要解决的是对比多组数据与其总体的平均值是否相等的问题，如果直接套用Cohen氏 d值，那我们便不知道取哪一组数据的平均值与总体平均值作比较，这时该怎么办呢？幸好，Cohen氏d值还有一个失散多年的兄弟，叫做Cohen氏 f 值，专门用来测量ANOVA的效应大小。

回到效应的最初定义，也就是测量组与组之间的差距相对数据本身“噪声”的大小，我们会发现组与组之间的差距似乎与ANOVA里面计算的组间平方和成正比，而所谓的噪声似乎与组内平方和成正比。ANOVA的效应大小可不可以就用组间平方和与组内平方和的比值表示呢？事实上，这一比值再开方便称为Cohen氏 f 值：

不难发现Cohen氏 f 值与他的兄弟d值一样，也不依赖于测量单位，或者说将所有的数据都放大或缩小一定的倍数并不会改变它的大小。Cohen氏 f值越大，效应也就越大，Cohen本人在提出f值的时候也将其大约分成了小中大三个区间，在单因素ANOVA检验中，小效应对应f值在0.1左右，中效应对应的f值在0.25左右，大效应在0.4左右。

另外一个常被用来代表ANOVA效应大小的统计量是

。它等于组间平方和与总平方和的比值:

越大，效应也越大。细心的读者不难发现，

与Cohen氏 f值其实是可以相互转化的，它们的关系如下：

可以看到用

表示的效应在数值上会小于Cohen氏 f值，不同的统计学软件在输出ANOVA结果的时候会用不同的统计量来表示ANOVA效应大小，大家使用的时候要注意区分。

这一集主要是教会大家怎样估计ANOVA 检验需要的样本量，为什么要费这么多力气讲如何衡量ANOVA的效应大小呢？主要是因为样本量，统计功效，效应大小还有显著性水平这四个量知道其中三个就可以推导出第四个。

在计算实验需要的样本量的时候，我们必须要输入其它三个参数的值。现实是实验还没有做，效应大小如何知道呢？前面讲t检验的时候，我们就遇到了一样的问题，解决的方法一般是通过小规模的试点实验来估计效应大小，或是参考类似研究的效应大小。而统计功效和显著性水平按照惯例一般设为0.8和0.05，我们在《做统计，多少数据才算够》解释过这两个看似随意取的数值背后也有一定的合理性。

有了统计功效，效应大小，显著性水平三个参数的值，我们便可以用之前推荐过的免费功效分析软件G*Power（或者其他具有功效分析功能或模块的统计学软件）来确定样本量。在G*Power中，ANOVA与t 检验的区别主要是test family要选择f tests，在最常见的单因素ANOVA情况下statistical tests要选择ANOVA：fixed effects, omnibus, one-way，多因素的情况大家如有需要可以参阅G*Power用户手册，或者在本文下方留言，我们会很乐意解答。

我们在计算ANOVA的效应的时候，还要考虑到实验设计的形式。之前在讲重复测量ANOVA时提到，如果在同样一组个体进行多次测量（不同时间或者不同实验条件），在计算误差项的时候会扣掉个体间的差异导致的数据波动，参考《听说，成对t检验还有进阶版？》《重复测量ANOVA：你知道的事儿都在这里啦》。

计算重复测量ANOVA的效应大小，我们同样也要考虑到个体间的差异。在计算数据本身的噪声的时候，要从组内平方和里面扣掉个体间平方和，这时，衡量效应大小的Cohen氏 f值表达式如下：

对比重复测量ANOVA和不考虑重复测量结构ANOVA，我们可以看到前者得到的效应会大一些，也就是说获得同样的统计功效，前者所需要的样本数量更小。

当我们设计实验的时候，为了有更高的统计功效，减少实验所需的样本量，要尽可能地利用重复测量的设计。比如我们在研究小鼠的体重是否随年龄变化，我们需要在三个月，四个月，五个月三个时间点测量小鼠的体重。实验方案一，从同样的10只小鼠身上在这三个时间点分别获得体重数据，共需要10只鼠；实验方案二，每个时间点采集10只小鼠的数据，但是不同时间点采集的并不是同一批小鼠的体重，共需要30只鼠。方案一不仅用到的鼠的数量更少，而且得到的统计功效反而更高，所以会更优。

当然，并不是所有的实验都适合重复测量的设计，选择实验方案最终还是要看能不能准确地验证假说。在确定了实验设计之后，提前做好功效分析确定样本量，就是为实验结果的可信度做好了保障，在得到数据之后不管结果是显著的还是不显著的，都是统计学上可信的结果，能够成为人类知识大厦的一块坚实砖瓦啦！

五年执医三年模拟

精选每日一题

更多精选题可回顾历史推送文末

26岁，经产妇。停经8周，下腹阵发性剧烈疼痛10小时伴多量阴道流血，超过月经量。检查宫口开大近2cm。

题目来源：临床执业医师资格考试往届真题

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。