样本量估算需要考虑哪些因素—

样本量估算需要考虑的第二个重要因素：

二、研究设计方法

研究设计的方法很多，横断面调查、病例对照研究、队列研究、随机对照试验都有各自的样本量计算思路。

1. 横断面调查

横断面研究是以描述为主，主要目的是获得某调查指标的率或均值，如调查某地区40以上居民的糖尿病患病率、调查某市高中生的饮酒率等。因此样本量的计算需要通过文献获得调查指标的预期率或均值，同时还需要考虑到调查结果的精确度，精确度通常以容许误差来反映。

如调查北京市高中生的饮酒率，需要查阅文献，事先获得以往调查中高中生大致的饮酒率，然后根据饮酒率，设定一个合理的容许误差。一般来说，容许误差越小，要求的精确度越高，所需样本量越大。

有人认为，这种样本量的计算有很多主观性，因为容许误差是自己设定的。容许误差确实存在主观成分，但却不是随意设定的。比如饮酒率是10%，容许误差不可能设的太高，如果你设为5%，那相对10%而言，便是50%的偏差。所以如果你想获得一个较为精确的结果，当然容许误差设定的越低越好（前提是你有足够的经费支持）。

2. 病例对照研究和队列研究

病例对照研究和队列研究属于分析性研究，二者主要区别在于资料收集的顺序上。如果先获得结局（如有病或无病），再回头调查疾病发生的危险因素，这属于病例对照研究。如果先获得是否具有某危险因素（暴露和非暴露），然后追踪观察暴露和非暴露的结局，这属于队列研究。尽管经典的病例对照研究和队列研究已经衍生出不少新的研究（如巢式病例对照研究、历史性队列研究等），以往根据时间先后来区分病例对照研究和队列研究的概念似乎已经被颠覆，但无论是哪种方式，病例对照研究始终是先明确病例和对照，而队列研究则是先明确暴露与非暴露。如巢式病例对照研究，虽然先采取队列研究的方式，但在初始并未按暴露分组，仍是观察一段时间之后先确定了病例和对照。同样，历史性队列研究尽管从时间上是往前追溯，但追溯到初始阶段的时候，仍是先根据当时的暴露情况划分为暴露和非暴露。

病例对照研究和队列研究中的样本量计算，首先需要确定一个主要研究因素，如采用病例对照研究探索胃癌与幽门螺杆菌的关系，首先确定病例（胃癌）和对照（非胃癌），然后测定两组人群的幽门螺杆菌的感染情况。这里幽门螺杆菌就是主要研究因素。其次还需要考虑可能的混杂因素，混杂因素与结局的关系，等等。

有的人可能会说，我做的病例对照研究并没有确定主要研究因素，只是想泛泛地了解疾病发生的影响因素有哪些。这种情况在国内并不少见，其实这种方式的研究并不被真正的研究者所认可，因为这相当于你没有任何的预期研究目的。对于一个真正的研究项目，研究者不可能没有任何预期目的。当然有人提出，对于这种泛泛地探索性研究，至少需要保证样本量是研究因素的10倍以上（事实上，应该是病例的样本量至少是研究因素的10倍以上，而不是总例数）。这一说法主要是从统计学角度提出的，因为病例对照研究采用的是logistic回归，以最大似然法估算参数值，而最大似然法需要足够的样本量才能有稳定的参数估计。10倍以上只是个比较大致可靠的说法，并非说10倍一定可以保证你的结果可靠，还取决于你的数据结构。所以，对于这种漫无目的的研究，只能说样本量当然是越大越好，没有一个统计学家可以给你保证10倍或者15倍一定是足够的。

对于目的明确的研究，样本量的计算就显得更有依据。不管是病例对照研究还是队列研究，都需要考虑主要研究因素与结局的关系有多大（这种关系可以通过多种方式来体现，如优势比OR、相对危险比RR等），如果有混杂因素，还需要考虑混杂因素与在结局中分布情况等。一般来说，相关性越强，所需样本量会越小一些。此外也跟混杂因素与结局的相关性有关，如果混杂因素与结局的OR值比较大，所需样本量会大一些。

3. 随机对照试验

随机对照试验有多种设计方法，常见的如完全随机设计、析因设计、交叉设计等。不同设计的选择需要根据研究目的来确定，如考虑一个因素还是多个因素，是否需要考虑交互效应等。

完全随机设计是最基本的随机对照研究，其基本思想是用随机的方法将研究对象分配到两组或多组，每组给予相应的处理或对照，因此其样本量计算只需考虑一个分组因素即可。不管是两组还是多组，一定要获得各组的均值（及各组的合并标准差）或率。对于连续资料而言，各组的均值差别越大，所需样本量越小；合并标准差越小，所需样本量越小。对于分类资料，各组的率差别越大，所需样本量越小；反之所需样本量越大。

析因设计是指在每一次完全实验或每一次重复中，处理包括所有因素的所有可能水平的组合。例如，因素A、B、C分别有2、2、3个水平，则实验共安排2×2×3=12个处理。析因设计是多因素的设计，需要同时考虑到多个分组因素以及各分组因素之间的相互作用。具体来说，需要预先了解各组的均值和方差，根据各组方差可以获得误差均方MSE，而且需要明确你是否想分析交互作用。一般而言，各组均值差别越大，误差均方MSE越小，所需样本量越小；如果你想分析交互作用，通常需要更大的样本量；反之，如果只想分析各因素的单独效应，所需样本量会小一些。正常情况下，采用析因设计的很大原因是因为想分析交互作用，因此析因设计所需的样本量通常会多于完全随机设计。

交叉设计的基本思路为（以2×2交叉设计为例）：首先将研究对象随机分为两组，第1组先接受A处理，经过一段洗脱期（washoutperiod）消除A处理的影响后，再接受B处理，即第1组的实验顺序为AB。第2组先接受B处理，经过一段洗脱期消除B处理的影响后，再接受A处理，即第2组的实验顺序为BA。两种处理在实验过程中交叉进行，所以称为交叉设计。由于交叉设计是对同一人群分别实施多种处理，因此除各处理组的均值和标准差外，还需要考虑同一人群内的相关性。总的来说，两组均值差别越大，两组合并标准差越小，所需样本量越小；前后测量之间的相关性越大，所需样本量越小，反之所需样本量越大。

未完待续!

觉得本公众号有用的朋友，如果想赞助，无需赞赏，帮忙点一下广告即可。只要点开即可，是否购买无所谓。也算是对本人时间和精力付出的一点回报吧。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。