我们对几种中心趋势的度量方法(平均值、中位数)做了说明。毫无疑问,均值是度量中心趋势最常见的方法,通常用样本均值来估计总体均值.
均值的抽样分布 (sampling distribution of the mean)
所有可能的样本均值的标准差叫做均值的标准误差(standard error of the mean),表达了样本均值是如何随着样本的不同而变动的.
均值的标准误差等于总体的标准差除以样本容量n的平方根.
在一个小样本中,样本均值也各不相同,因为每一个样本均值将样本中所有的数取平均了,所以样本均值的波动比总体本身的波动小.
总体中的个体结果可以在极小和极大之间波动,假设样本中包含一个极端的数据,即使它对样本均值有影响,因为它会被其他数据平均分摊,所以它对样本均值的影响也会被削弱.
随着样本容量的增大,单个极端数据的影响就会变得越来越小,因为它被越来越多的数据平均分摊了,所以,均值的标准误差就会因为受样本容量的平方根影响而变小.
正态分布总体的抽样
在很多情况下,总体并不服从正态分布,也不能不切实际的假设它为正态分布,为了解决这个问题,需要学习统计学中的一个重要的定理.
当样本容量(样本中的观察值数量)足够大的时候,不管总体的分布形状如何,样本均值的抽样分布都近似于正态分布.
作为一项一般准则,统计学家发现,对于许多总体分布样本容量至少为30的时候,均值的样本分布接近正态.如果总体分布极端偏斜或者有多种模式时,为保证正态性,样本容量大于30.
抽样数为n,则此抽样样本所形成的抽样平均值 会是如何?
可以把此做法想象成:每次抽样n个后统计平均值经历过无限次数后,平均值的分布状况会如何?
n=1:
n=5:
n=10
n=30
n=10000
无论总体服从何种分布,经抽样后(n=5,10,30,…,10000),则平均值 的分布会是呈正态分布。[大样本(n>30)越趋近于正态分布]
在使用统计推断预估总体时,中央极限定理起了非常关键的作用,即使我们不知道总体分布的具体形状,只要有了中央极限定理,就可以对总体均值作出推断.
联系客服