临床研究及其样本量的估算：哲学思考与技术实现

猴急的，可直接跳到最后。

前戏

首先，我们澄清一个概念，什么是「临床研究」？或许我们听过类似的很多术语，如「临床医学研究」、「临床试验」、「实效研究」、「比较效果研究」、「登记注册研究」......，但很可惜的是，说了这么久，提得这么响亮的「临床研究」，鲜有人认真地留意过其含义，把「临床研究=「临床医学研究」或=「临床试验」的也大有人在。

其实，「临床研究」是一个更为宽泛的概念。NIH认为任何直接或间接涉及人的研究都是「临床研究」，NIH定义临床研究为：

Clinical research is research that either directly involves a particular person or group of people or uses materials from humans, such as their behavior or samples of their tissue, that can be linked to a particular living person.

这个定义显然有些大而无形，因此NIH又补充认为，「临床研究」可以分成如下类别，由此可见，我们所说的「临床试验」、「流行病学研究」以及「实效研究」都属于「临床研究」的范畴。

如果这个分类还不甚明朗的话，那么Lancet期刊的16篇流行病学系列讲座开篇就给出了一个更为亲民的分类体系。看完此图，不知流统的同学作何感想？

铺垫完了，进入正题，说说样本量的估算吧！

哲学思考篇

临床研究设计中，研究者最容易向统计人员求助的是：

帮我算算样本量多少吧？
能不能再少点?
就这么点人了，直接做行不行？

其实，临床研究的设计是一个复杂的系统工程，统计学家要解决的，不单单只是算一个样本量的问题。研究问题和研究假设的提炼细化，研究数据的定义、收集、清洗，这些都是需要统计专家的参与。统计分析方法的确定和选择，统计结果的解读以及统计报告的撰写等，这些环节里，统计专家更是主力军。因此，如果您是一位临床研究者，请不要简单粗暴的向您身边的统计人员索要一个样本量了，正确的姿势是邀请他们从源头参与您的研究项目，共商研究大计。

不过，既然说到样本量的估算，那就分享一点个人的思考吧。

样本量的估算是一个哲学问题

说样本量估算是一个哲学问题，是因为样本量的估算，是在初步摸清了研究状况后，对将来进行一个科学的预判。前期的摸底，就是研究中的一些必备参数的掌握，如各研究组的有效率，均数标、标准差等；对将来的预判就是基于这些参数的摸底，假定如果这些参数摸底比较正确，也就是这些参数接近将来研究的真实情况，从而反推现在我们应该招募多少研究对象。由此可见，样本量的估算是一个类似由「果」到「因」的过程。但是，就研究本身而言，这是一个由「因」到「果」的过程。为了得到研究的「果」，在样本量估算阶段就需要尽可能摸清这个「果」，从而由「果」到「因」完成样本量设计，再继续进行研究，完成研究，实现由「因」到「果」的统计分析。说到这里，是否感觉到「因」「果」已经有点纠缠不清了？是的，本来是要求解「未知」，但我们确需要先把「未知」变成「已知」，再在反过来求解「未知」。有意思吧? 哲学问题啊！

样本量的估算是一个模糊问题

说样本量的估算是一个模糊问题，这里面有两层含义：

对于前期参数的摸底，只能是一个近似。对于参数的摸底，要么基于预实验，要么基于文献报道，要么干脆基于团队或者个人经验。这个参数，不可能是准确的，我们只能祈祷它尽可能接近我们所研究的真实情况。

样本量的求解结果，是一个>=的结果。也就是说，公式求解的其实是至少需要多大的样本量。如果研究团队财大气粗，也不着急，多招募一些研究对象，估计也没人拦着，当然，我们不鼓励铺张浪费。

样本量的估算是一个动态问题

说样本量的估算是一个动态问题，这是因为样本量的估算不是一锤定音的买卖。一方面，为了使估计更为科学合理，我们需要依据研究进程，更新摸底的参数，以便获得更准确的样本量，这在成组序贯、适应性设计中体现得更为明显。另一方面，

在研究过程中，研究对象的脱落和剔除、病例依从性差等原因，会导致可评价例数的减少，需要对样本量做一定的补充。

样本量的估算是一个配套问题

样本量的估算，是在研究假设，对照的类型，比较类型，设计模型，主要指标，以及统计分析方法等设计因素下进行的，因此，研究进行末期，在统计分析时，需要记得此前的研究设计，分析方法和研究设计需要对应。

样本量的估算还是一个现实的问题

从科学性上讲，样本量应该最少达到多少，就应该尽量去满足，然而实际研究中，常常受制于与课题经费、课题时间的限制。

样本量的估算确实比较「灵活」，有一定的调整空间。临床研究者也常常会刻意在估算时把效应量估大一些，把握度降低一些，以期获得更小的样本量估计。殊不知，这种做法无异于掩耳盗铃。刻意提高效应量，不等于研究真的有那样的好的效应，刻意抬高的效应量，就是一块举上头顶的石头，说不准，哪天就砸到自己的脚了。慎重，慎重！

技术实现篇

上一篇，闲聊了临床研究中样本量估算的哲学问题，这一次，说说技术问题。

或许我们或多或少都曾见过一些对样本量估算的零散论述。如果是统计人员，有两本专著可以推荐：

1. Sample Size Calculations in Clinical Research

眼尖的筒子们或许已经看到了，这是CRC出版社出版的生物统计系列中的一本。书中对临床研究的各种设计类型：均数比较、率比较、拟合优度及列联表检验、生存数据、成组序贯、生物等效性以及剂量反应研究设计、microarray studies等均有较为系统的论述。不过里面涉及的公式和理论推导较多，需要一定的时间和精力消化。此外，缺乏具体的操作指导，这对临床研究者来说，也是一个很大的遗憾。

2. Sample sizes for clinical trials with Normal data

这其实STATISTICS IN MEDICINE期刊里的一篇论文。但是论文系统的从优效性试验、非劣效试验以及等效性试验三种比较类型，以及平行组，交叉组对照两组形式分别进行了详细论述。较为可贵的是，作者给出了不仅给出了公式，基于nQuery软件做了操作截图。不过，遗憾的。nQuery软件是要掏钱的。

样本量的计算工具

样本量的计算工具，传统的统计软件如SAS、Stata、R只要编程得当，理论上都可以进行各种计算。但问题是：编程如何得当？专业的统计人员可能都畏惧三分。

其他专业软件，大名鼎鼎的有nQuery和PASS，但是用他们的话，一是要掏银子购买；二是新软件也有一定的学习和操作成本。难道就没有更好的临床研究样本量计算工具呢？

当然有了，那就是基于Excel的临床研究样本量计算工具。

这里就有一款美观，优雅，易用的临床研究样本量计算工具，我命其名为CRESS。

同其他Excel样本量计算工具相比，CRESS具有如下特点：

1. 模块清晰。各颜色底色不同。白色部分是可以输入的参数，灰色可选参数，绿色为计算结果。

2. 内容丰富。包括两组，单组，生存分析，诊断试验以及调查研究等均有相应模块。

3. 参考具细。右侧部分附录参考公式，各模块底部附有将要说明。

获取
每次介绍带操作性的方法时，我基本都设置回复关键词推送，但这次，我希望我的时间和精力能获得您的尊重和认同。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。