打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
极简统计学(十三 大结局)统计学的主干--看这篇就够了
userphoto

2023.09.01 上海

关注
统计学是那种既可以学,又能学以致用的东西。
对普通人来说统计学很难。
首先教材上讲的知识点太多,做到面面俱到。

还有一种说法是: “如果你的教材(申报书),写的逻辑太清晰明白,让人一看就懂,会被认为不够“专业”和“高大上”,会通不过专家评审。

我们立个这样的flag:“要把某某教材吃透”很容易,但真正执行起来,因为战线拉得太长,很容易半途而废。

好消息是,我们只需抓住主干,掌握主要的知识点。而有了这个基础,要用到其他的统计工具时,再查资料也很容易搞懂。

前面的十二篇文章,我们的目标是搞懂统计学的主干:标准差,正态分布,中心极限定理,参数估计,假设检验和回归分析。

参数估计,假设检验和回归分析是推断统计的工具。在每个统计工具里面,我们先学习大样本(超过30)的情况,大样本服从最简单的正态分布。那是因为:

  • 现在的情况下掌握大样本数据并不是什么难事。

  • 小样本的计算思路是一样的,只是符合的分布不一样,真正使用时查资料很容易就能上手。

  • 降低学习的难度,正如爬山,我们先心无旁骛地向着主峰去,至于路途的其他山峰,等登上主峰后,我们再一览众山小。

下面我们再回顾一下这些知识。如果没有读过前面十二篇的内容,读了这篇,也能掌握统计学的主干,可马上应用在工作和生活中。


01 概率

概率论和概率分布是推断统计学的基础。

概率学是一门研究不确定事件和结果的学问。

【概率】是指某个事件发生的可能性大小。它的取值范围在0到1之间,其中0表示不可能发生,1表示一定会发生。
例如,抛硬币时,正面朝上的概率为0.5,反面朝上的概率也为0.5。
又如,掷骰子时,每个点数出现的概率都是1/6,因为骰子共有6个面,每个面出现的概率相等。
Rocky 了解到在制造内衣时有 1% 的次品率,我们可以说,该公司生产内衣产生次品的概率是1%。我们不知道线上出来的下一件产品是合格品还是次品,但能确定的是,生产的10,000件里面,大约有100件次品。

0​2   概率分布

随机变量】是把试验结果用数值表示
例如抛硬币时,用1表示正面,用0表示反面。那抛硬币的随机变量可能取值就是1或者0;
掷骰子的结果:1,2,3,4,5,6都是掷骰子的随机变量。那掷骰子的随机变量可能取值就是1,2,3,4,5,6;
概率分布】是指一个随机变量所有可能取值的概率分布情况。
抛硬币时,正面朝上(1)的概率为0.5,反面朝上(0)的概率也为0.5,这就是硬币的概率分布。
再例如,掷骰子时,每个点数1,2,3,4,5,6出现的概率都是1/6,这就是骰子的概率分布。
复杂一点的概率分布,我们可以用表格或图表表示。

Rocky的团队从生产线上随机抽取了100件内衣,分别测量了它们的重量。

然后将这些重量数据进行分组,假设他们将这些数据按照每5克为一组进行分组。
接着,他们可以统计每组内的数据个数,比如68克~73克的内衣一共有5件,这样就可以得到一个频率分布表,它可以展示内衣重量的分布情况:

最后,他们可以将这个频率分布表用直方图的形式呈现出来,这样可以更加清晰地展示内衣重量的分布情况。

直方图的横轴是内衣重量的区间,纵轴是该区间内内衣重量的频率,这个图是【概率分布图


每一个随机事件都有自己的概率分布。随机事件不同,概率分布自然也不相同。但经过不断的研究,数学家们逐渐发现,概率分布是有规律可循的。

比如人的身高和智商,看起来毫不相关,但它们的分布情况挺相似的,都是正常水平的比较多,而特别高和特别低的非常少。

再比如地震,小规模的地震数量很多,但破坏性很小;大规模的地震数量很少,但破坏性很大,这和个人财富的分布状况又比较一致。

更进一步,数学家们还发现,这些概率分布的变化规律甚至可以用数学公式来精确表示。

这一个个的数学公式,就是【概率分布模型】。

常见的概率分布,有二项分布、正态分布、t分布等,分别对应不同的数学公式,代表一种独特的变化规律,这些分布都有着不同的特点和应用场景。
二项分布适用于描述在n次独立重复试验中成功次数的概率分布,正态分布适用于描述连续型随机变量的概率分布,t分布适用于小样本数据的分布情况。

03  标准差 

统计学家用“方差”或者“标准差”表示一组数据的“波动”。
标准差】(standard deviation)是用来度量一组数据离其平均值的偏差程度的统计量。
在统计学中,标准差常用来衡量一组数据的离散程度,即数据偏离平均值的程度。
标准差越大,表示数据更加“离散”,表示“波动”越大。
方差=偏差平方和/n  (n是表示一组数字的个数)
方差开根号后就是标准差:标准差=方差
例如:你带领的火箭零件开发团队,他们的年薪分别是(万元):6, 10, 12, 16,  40。这组数据的标准差计算步骤如下:
1、计算各个数值的偏差平方
平均值是:(6 10 12 16 40 )/5=16.8
(6 - 16.8)^2 = 116.64
(10- 16.8)^2 =46.24
(12 - 16.8)^2 = 23.04
(16 - 16.8)^2 = 0.64
(40 - 16.8)^2 = 538.24
2、计算偏差平方和
116.64 46.24 23.04 0.64 538.24= 724.8
3、计算方差
s^2 = 724.8/5= 144.96
4、计算标准差
标准差,是方差的开根号:s = 144.96 =12.04
5、结论:火箭零件开发团队的工资标准差是12.04

04  正态分布

正态分布是最常见的概率分布。世界上大多数“不确定性”的事物,都可以用正态分布来描写。

【正态分布】有一个钟形曲线的形态,只需要两个参数决定这个曲线:均值和标准差。

正态分布在自然界中广泛存在,人类的身高、体重、智力水平、心跳率等,都可以用正态分布来描述。

在工程、科学和社会科学等领域中,正态分布也是最常用的一种分布。

以下是一个正态分布的形成过程:

把一个学校里的所有学生都放一起,看看他们的身高是怎么“分布”的,也就是统计在每一个身高数值上有多少人 ,结果差不多都是下面这样的形状:


身高中等的人数最多,特别矮和特别高的人都很少,整个形状是中间高、两边低。在这张图上,165公分是中等身高,这也基本上是所有人的平均身高。
为什么会是这样呢?我们可以想象身高是一系列基因互相配合的结果。所有相关基因都表现的很“好”,身高才能达到最高;所有相关基因都表现“不好”,身高才能达到最低。
这两种极端情况,既然需要这么多基因同时好或者不好,出现的概率必然很低。大多数情况下有的基因表现好有的基因表现不好,结果就是身高中等。
如果把上面这个分布图取一个光滑的极限,它就是一条“钟形”曲线 —— 这就是著名的“正态分布”。下图是分别统计的男性和女性身高正态分布曲线。

生活中绝大多数受随机因素综合影响的事物,基本上都符合正态分布。身高和智商是典型的正态分布。
当然也有一些事物不是正态分布,比如人的财富、城市的大小就更接近于“幂率分布” —— 这是因为它们不是独立的随机事件,越有钱的人会越有钱,越大的城市越吸引人。
但即便不是严格的正态分布,你做理论评估的时候也可以把它当做正态分布,有个理论总比没有强。
每一个正态分布的图形,都是由两个变量完全决定的。

一个是平均值,一般用 μ 表示,它决定了曲线的位置,是整个曲线正中间的一点。

另一个就是“标准差”,数学符号是 σ(sigma,西格玛),它决定了曲线的宽度。
下面这张图直观地表现了 μ 和 σ 的意义 ——标准差越大,曲线越“肥大”,标准差越小,曲线越“瘦窄”
下图:A曲线的标准差比B曲线的标准差小
对专业选手来说,一说标准差,他就能大概估计各种情况发生的概率大小

在正态分布中,一个标准差覆盖68.26%的数据,两个标准差覆盖95.44%的数据,三个标准差覆盖99.72%的数据……都是一一对应、完全确定的。在统计工作中常用,希望大家把这3个数记在脑子里)如下图


质量管理里的“六西格玛”,它的意思就是在六个标准差之内出的产品都是合格的。六个标准差覆盖了99.99966%的范围。
有68%的人的身高是处在距离平均值一个标准差的范围内。换句话说大多数人的身高都在平均值附近,不超过一个标准差。距离平均值两个标准差内的人数就达到95%,三个标准差就是99.7%。
我国18-44岁居民平均身高,男性为169.5厘米,标准差为6 cm。也就是68%的男性居民是在163~176之间。
由于距离平均值两个标准差内的人数就能达到95%,那距离平均值两个标准差外的人数就是5%。
这5%的人里面,有5%/2=2.5%是少于平均值2个标准差的,有2.5%是大于平均值2个标准差的。
也就是说只有2.5%的人超过169.5 6*2=181.5cm
上述181.5cm这个数值,距离平均值2个标准差,这个“2”是Z-score(标准分数)
Z-score(标准分数)】是指一个样本值距离其所在总体均值的标准差个单位数。

它的计算公式为:
Z = (x - μ) / σ
其中,x是一个样本值,μ是总体均值,σ是总体标准差。
Z-score的正负代表着样本值相对于总体均值的方向,而Z-score的绝对值代表着样本值相对于总体均值的距离。
Z-score通常用于标准化数据,即将不同的数据转换为在同一尺度下进行比较。
例如,在某次考试中,假设数学科目的平均分是70分,标准差是10分,而小明的分数是85分。那么小明的Z-score为:
Z = (85 - 70) / 10 = 1.5
表示小明的成绩距离数学平均分是1.5个标准差。
Z分数对应的概率值,可在【公式】【统计】中调用 NORM.S.DIST函数计算。

我们计算1.5个标准差的概率值,在“数值”填入1.5,在“返回累积分布函数”填入1,得到值为0.933193。表示1.5个标准差处,左侧曲线下的面积是0.933193;如下图:

小明的成绩距离数学平均分是1.5个标准差,表示他的成绩超过93.31%的同学。

05  中心极限定理


样本统计量】通常我们会使用样本的均值和样本的标准差来估计总体均值和总体标准差。这些“样本的均值和样本的标准差”都称为“样本统计量”。

抽样分布】是指样本统计量的概率分布,例如:样本均值的分布,样本比例的分布,样本方差的分布等都称为抽样分布。
具体一点,样本统计量的抽样分布可定义如下:
某个样本统计量的抽样分布,从理论上说就是在重复选取样本容量为n的样本时,由该统计量的所有可能取值形成的相对频率分布。
从总体的N个元素中抽取一个样本容量为n的随机样本,在重复抽样的条件下,共有N的n次方个可能的样本。对于每个样本,我们都可以计算出样本均值,样本方差,样本比例等。因此样本均值,样本方差,样本比例等都是随机变量。

我们详细介绍样本均值的形成过程,来理解上面的概念:

假设,有一袋苹果,一共4个,重量分别是1斤,2斤,3斤,4斤。
经计算知道,总体的平均重量是2.5斤,方差是1.25。
从中重复抽取2个,一共有4的2次方等于16种可能的样本,如下表:
那把样本均值按出现的个数统计整理,比如均值为2斤出现的次数为3次,列表如下:
我们把均值的分布绘成下图,那就得到了样本均值的概率分布图,我们可以观察到样本均值的抽样分布在形状上是对称的。
我们不仅关心样本均值的抽样分布,还需要知道均值抽样分布的性质,包括均值抽样分布的均值,标准差,抽样分布的形状等。

样本均值抽样分布的形式与原有总体的分布及样本容量n有关。

样本容量n是每次抽样的数量。

如果原有总体是正态分布的,那么不管n的大小,样本均值的抽样分布都是正态分布。
如果原有的总体不是正态分布,样本均值的分布取决于n的大小,当n>=30时,都趋于正态分布,其分布的期望值等于总体均值μ,方差为总体方差的1/n(σ^2/n),这就是著名的“中心极限定理”
(图片来源于网络)

统计学中,中心极限定理描述为:

当样本容量n足够大(通常>=30),
不论总体是否正态分布,
其样本均值的抽样分布都趋于正态分布,
其分布的期望值等于总体均值μ,方差为总体方差的1/n(σ^2/n)

06  参数估计
【参数估计】是推断统计中的一个重要概念。可以简单理解为,利用样本数据去估计总体分布的参数。
我们知道,总体参数的值是一个常数,尽管这个常数对我们来说是未知的,但他不会因为样本的变化而变化。

然而在总体中抽取不同的样本会产生不同的样本均值。

我们怎么样用样本数据推测总体参数呢?
前面我们学习了中心极限定理,我们再来做个思想实验:
假如我知道总体的参数:100名小朋友平均身高是1.2米,标准差是0.2米。
如果我们抽到了10个正确的样本,这10个样本会不会结果就是,平均身高1.2米?
可能不会。因为所谓正确的样本,就是简单随机抽样获得的。随机的情况很复杂。极端情况下,有可能抽到10个最高的小朋友,平均身高是1.4米,或者10个最矮的,平均身高1米。
这时候怎么办呢?我们继续推断。如果我反复随机抽取10个小朋友,这10个就是“样本量”。抽完再放回去,一次又一次,抽了1亿次,1亿次就叫“抽样次数”。这时候,你得到了1亿个平均身高,请问,你觉得这1亿个平均身高的平均值是多少呢?
正好就是1.2米。标准差呢?不是0.2,而是0.06左右。这也不难理解,因为一堆平均值的标准差,肯定要比总体的标准差小
具体和什么相关呢?和每次抽取的样本量相关,样本量越大,波动就越小,标准差就越小。
数学上已经证明,这个标准差等于总体标准差除以开根号的样本量。
我们抽了1亿次,得到了啥?得到了平均身高是1.2米,抽样标准差0.06。反过来计算一下,也就知道总体的标准差是0.2了。这样一来,我们就完成了任务,得到了总体的参数。
可照这么说,还不如简单点,把100个小朋友的身高测一遍有用呢。
再次运用你的想象力,这1亿个平均身高放在一起会是什么样子的?—— 一个新的正态分布,一个与原来的总体分布有点关系,但不完全一样的正态分布!这个分布我们称之为“抽样分布”,就是多次抽样得到的均值的分布。如下图:
矮胖的曲线是总体身高的分布,瘦高的是样本平均值的分布。
你可以想象,当样本量再继续变大,这个抽样分布形成的正态分布将更加聚集,更瘦高。
极端的情况是,如果抽样的次数,也就是样本量等于了总体的数量,那样本的平均值分布就收缩成一个点,这个点就是总体均值。
这个假想的实验有什么用呢?我们可以用来评估样本对总体推断的准确概率。
什么意思?既然我们知道了抽样分布是一个正态分布,就可以反过来问一个问题:我随机抽样10名小朋友,得到了一个样本均值,这个样本均值在假想的抽样分布里,在各个位置出现的概率是多大?
答案是,很大概率会接近真实的总体平均值。这个总体平均值落在样本平均值左右两个标准差的范围之内,概率高达95%。
也就是说,只要有了样本均值和抽样标准差,我们就可以估算出总体平均值可能落在哪儿。
根据中心极限定理:当样本比较大的时候,以样本均值为中心,正负两个标准差的范围,有95%的概率会包含真实的总体均值。
假如我抽了10名小朋友,他们的平均身高是1.25米,10个人身高的标准差是0.19。这能告诉我们什么结论呢?
10的开方约等于3,
抽样分布的标准差是0.19/3=0.06,1.25±0.06*2,结论是,通过10名小朋友的随机样本,我就知道总体100个小朋友的平均身高处于1.13-1.37米之间,这个结论正确的概率是95%。
这样,统计推断就完成了。
我们再研究一下这个结论。10名小朋友的随机样本,均值是1.25米,标准差是0.19,总体100名小朋友的身高平均值在1.13米到1.37米之间。这个结论正确的概率是95%。
这么多数字,哪几个是最重要的?只有3个:
10名小朋友,这叫样本量
正确的概率是95%,这叫置信度
1.13米到1.37米这个范围,这叫置信区间
我们从局部推断总体的目的,就是想办法确定置信区间
这三个数字:
样本量是我们抽样时决定的。
置信度是我们可以规定的。
置信区间是靠置信度、样本均值、样本标准差以及样本量算出来的。
置信区间公式:

Z*是置信度C的临界值,(95%是1.96个标准差,那Z*=1.96;   99%是2.58个标准差,那Z*=2.58)
【置信区间】是用于估计统计数据总体参数的一种方法。简单来说,它是一个包含真实参数值可能落在其中的范围。
置信区间是基于样本数据计算出来的,因此它反映了样本数据的变异性。置信区间的范围取决于置信水平,即置信区间中包含真实参数值的概率。通常情况下,置信水平被设定为95%或99%。

我还还需注意以下三点:

1)这个公式有两个前提条件:第一是随机抽样;第二是样本足够大,因为样本足够大,就可以假设样本的标准差和总体的标准差相似,这个假设成立,基于总体的抽样分布就构建成功了,这样置信区间才能获得;
2) 当这两个假设不完全满足的时候,统计学还有一系列计算的其他公式,对应到样本不足够大,不是简单随机抽样的情况,大体上你需要了解的是,如果不是简单随机抽样或者样本不足够大,置信区间会略大一点。
3) 无论什么用什么公式解决这个问题,置信区间的逻辑和推导过程都是一样的,这件事儿的本质依旧是样本推断总体,因为我们没有总体数据,所以样本推断的结论并非完全正确,有一定的不确定性。我们通过抽样分布,去定量度量这种不确定性,从而得到样本对总体的推断结果。
置信区间的大小跟什么有关呢
第一,当然是置信度。最常见的就是95%,这是一种约定俗成的标准,但是实际操作起来不一定,我们可以根据你的需要去灵活选择。置信度设置得越高,置信区间就越宽。反过来也是一样,置信度越低,置信区间就越小。
一般来说,越严肃的问题,置信度一般都会高一点,这样置信区间宽了,出错更少。但是,高标准不是免费的,高标准带来的就是更宽的误差。
举个例子,如果说一年级的小朋友身高的平均值,置信区间从1cm到3m,置信度是100%,当然是对的。但是这么宽的置信区间对现实有什么意义呢?这就是正确的废话。
置信度不是越高越好,也不是越低越好,而是一个权衡取舍的过程。
置信区间的大小还跟样本量有关。 当样本量n增加的时候,置信区间就会成比例减少。不过,当样本量足够大的时候,通常N>=30,再怎么增加,对置信区间的影响也不会更大了。
还要注意:整个过程有一个重要的假设是,样本的标准差和总体的标准差相似。而现实当中,样本标准差有时受异常值的影响很大,如果出现异常值,这种方法的推断结果是要存疑的。要知道,如果数据有问题,比如数据缺失了,或者调查问卷有错误引导,那么再细致精巧的置信区间也没法掩盖数据的瑕疵。
上面我们介绍了区间估计的原理和需要注意的问题,下面介绍怎么利用这些知识在实际中应用,常用的是利用样本数据推断总体均值或总体比例。

总体均值的区间估计

假设Rocky想知道每天生产的内衣平均重量的真实值μ。为了估计这个参数,Rocky从每天的生产线上随机选取了100件内衣,并计算出这些内衣的平均重量,即样本平均值x̄。根据中心极限定理,当样本量充足时,样本平均值的分布会趋近于正态分布,且其均值为μ,标准差为σ/√n,其中σ为总体标准差,n为样本容量。
因此,我们可以用样本平均值x̄来估计总体平均值μ。
比如,在95%的置信水平下,我们可以计算出样本平均值x̄的置信区间。假设样本平均值为x̄=50,总体标准差为σ=3,样本容量为n=100,那么在95%的置信水平下,样本平均值的置信区间为:
50 ± 1.96(3/√100) = (48.42, 51.58)
这意味着我们可以有95%的把握认为总体平均值落在这个区间内。
总体比例的区间估计
在统计学中,总体比例是指一个总体中某一特定属性所占的比例。例如,在 Rocky的内衣制造公司中,总体比例可以是指生产出的内衣中次品的比例,或者是指每天生产的内衣中某种颜色的比例等等。
总体比例的区间估计可以帮助我们估计总体比例的值,并且给出一个可信的区间范围。这个区间范围可以根据置信水平来确定,例如我们可以选择置信水平为95%或99%等。置信水平是指当我们对总体比例进行区间估计时,我们有多大的把握认为这个区间范围包含了真实总体比例的值。
在总体比例区间估计中,我们通常使用以下公式:

π -Z*{π(1-π)/n}


π是样本比例,n是抽样个数。

Z*是置信度C的临界值,(95%是1.96个标准差,那Z*=1.96;   99%是2.58个标准差,那Z*=2.58)
举个例子,在 Rocky 的内衣制造公司中,假设我们想要估计每天生产的内衣中某种颜色的比例,并且我们想要在95%的置信水平下进行估计。我们随机选取了一批内衣进行检验,得到其中有80件是蓝色的,样本总数为200。我们可以使用上面的公式计算出蓝色的总体比例的置信区间:
蓝色的总体比例的置信区间为 [0.319, 0.481],在95%的置信水平下,我们有把握认为真实的总体比例落在这个区间范围内。


07  假设检验

话说在20世纪20年代末的一个夏日午后,在英国剑桥,一群大学教员、他们的妻子以及一些客人围坐在室外的一张桌子上喝下午茶。一位女士提出了一种古怪的观点,她说当把茶倒进牛奶里和把牛奶倒进茶里时,味道是不同的。

在座的科学家都觉得这种想法很奇怪,他们认为两种液体的混合物在化学上都是一样的,不可能有不同的味道。然而,一位留有尖髯的男子跳了起来,他说:“让我们做个实验来检验这个说法吧。”他开始策划一个实验,让这位女士按顺序品尝若干杯饮品,其中有些是加了茶的牛奶,有些是加了牛奶的茶。

他们先给女士喝了一杯,她猜对了。这并不奇怪,毕竟猜中的概率是50%。然后他们又给她喝了一杯,她又一次猜对了。纯靠猜的话,连续两次都猜中的概率是25%。然而,当他们给她喝了六杯时,她竟然连续六次猜中了!如果纯靠猜,这个概率是50%的六次方,大约是1.56%。
这个概率太小了,就像一个学生考了98.5分,你能说他全靠猜吗?显然不能。同样的,这位女士的表现也证明了她的味觉是非常准确的和敏锐的。
先假设女士不能分辨哪些是加了茶的牛奶,哪些是加了牛奶的茶。在统计学中,这是零假设,通常用H0表示。
相反的结果,女士的确能分辨哪些是加了茶的牛奶,哪些是加了牛奶的茶。在统计学中,这是备择假设,通常用H1表示。
假设某种断言是正确的(H0),但发生了很少会发生的结果,也就是小概率事件,基于这种不合理的现象,推翻开始的假设(H0),承认与它相反的结论(H1)。这就是显著性检验,也称假设检验。
那位女士如果不是靠味觉鉴别的话,靠瞎猜能连续六次猜中的几率是1.56%,这就是这件事的P值。为什么是1.56%就停止测试呢?统计学有个概念叫【显著水平】。
什么叫【显著水平就是我提供的证据的效力有多大。
如果你抛了一枚普通的硬币,连续100次都是正面朝上,那么你可能开始怀疑这枚硬币是不是有问题

因为按照理论上的概率,连续100次正面的可能性非常小,几乎等于0。这就好比你在大街上随便碰到一个人就让他猜一个随机的数,他连续猜对了100次的概率一样微乎其微。

那么,如果你投100次硬币,结果中有99次是正面呢?或者98次、97次、甚至是50次呢?

所以,我们下判断的依据就是概率,也就是P值。如果P值很大,就说明如果零假设成立,这种情况出现的概率很大,于是我们就不能推翻零假设。

但如果P值很小,那就代表如果零假设成立,这种情况出现的概率非常小,几乎不可能,于是我们就可以推翻零假设,接受与它相反的推断,也就是备择假设。
发现没有,我们下判断的依据是,某个结果出现的可能性,也就是概率,专业说法叫P值
如果P值比较大,就代表如果零假设成立,这种情况出现的概率很大,于是就不能推翻零假设;如果P值很小,就代表如果零假设成立,这种情况出现的概率非常小,几乎不可能,于是就推翻零假设,接受与它相反的推断(备择假设)。
现在的问题就是,P值到底多小才是小呢?或者换句话说,P值小于多少,我就可以推翻零假设,接受备择假设了?这个黑白分明的边界在哪儿呢?
这个标准就叫作“【显著性水平】”。
一般来说,人们将显著性水平设置为5%,也就是,P值小于5%,则推翻零假设;大于5%,说明没有足够的证据推翻零假设。5%显著性水平的相对代价最小,所以被普遍使用。
如果零假设是人们多年来一直深信不疑的事,那显著性水平的门槛就比较高。换句话说,你需要非常强的证据,也就是很小的P值才能推翻零假设。
物理学的统计结论门槛就特别高,只有百万分之一的显著性指标才能证明某个粒子的存在。而社会科学、医学,往往采用5%的显著性标准,也就是说,如果P值小于5%,就可以推翻原有假设。

女士品茶的例子里,P值是1.56%小于显著水平5%,所以拒绝0假设,支持备择假设H1。
这个P值比较简单就可以计算,下面介绍复杂点的情况。
我们借用《赤裸裸的统计学》的一个例子:
2011年5月《华尔街日报》刊登标题文章,题为“自闭症和脑量”,由于自闭症谱群疾病的病因至今尚未明确,因此该发现被认为是一项重大的研究突破。北卡罗来纳州州立大学的研究人员对59位患有自闭症的儿童和38位健康儿童进行了大脑成像,发现自闭症儿童的脑量要比同龄的健康孩子大10%。

一个问题是指,我们能否仅仅通过一项规模不是很大的研究就认为所有患有自闭症谱群疾病的儿童的脑量都与正常人不同。回答是可以的。研究人员表示,在儿童的脑量与患自闭症无关的情况下,两组样本(59位自闭症儿童和38位健康儿童)的脑量出现如此差异的概率非常小,不到千分之二。
研究中的两组孩子—59位自闭症患儿和38位健康孩子能够合理地代表他们所在的群体,而且样本数量已足够,因此适用于中心极限定理:
(1)任意一个群体的样本平均值将会在群体平均值周围呈正态分布;
(2)样本的平均值和标准差约等于所在群体的整体平均值和标准差;
(3)约有68%的样本平均值位于群体平均值一个标准误差以内,约有95%的样本平均值位于群体平均值两个标准误差以内,以此类推。

每个样本应该与其所代表的群体相似。正确抽取的样本的平均值与整体平均值相差很大的可能性很小。另外,同一群体的两个样本应该相似。如果两个样本的平均值相差很大,最有可能的原因是它们来自不同的群体。

那份关于自闭症的研究论文所用的基本方法论是一样的。

零假设是:无论孩子有没有自闭症,他们的大脑在解剖学上都没有什么差别。
备择假设为:患有自闭症谱群疾病的儿童,他们的大脑与健康儿童的大脑有根本性的不同。

在该研究中,自闭症儿童的平均脑量为1310.4立方厘米,对照组儿童的平均脑量为1238.8立方厘米,所以两组儿童的平均脑量之差为71.6立方厘米。假如自闭症跟儿童的平均脑量并无任何关系,那么出现这一结果的概率有多大?

我们可以先求出样本的标准误差:其中s为样本的标准差,n为样本数量。研究还为我们提供了这些数据:自闭症组中59位儿童脑量的标准误差为13立方厘米;对照组中38位健康儿童脑量的标准误差为18立方厘米。

你应该还记得中心极限定理告诉我们,有95%的样本平均值会落在整体平均值左右两个标准误差的范围内。

因此,我们可以从手中的样本推断出,所有自闭症儿童的平均脑量在1310.4±26立方厘米范围内的概率为95%,在统计学上我们称之为置信区间。我们可以有95%的把握声称,在1284.4~1336.4立方厘米的置信区间里包含了广义上所有患自闭症谱群疾病的儿童的平均脑量。

用同样的方法,我们也能够有95%的把握声称,在1238.8±36立方厘米的范围内,也就是1202.8~1274.8立方厘米的置信区间里,包含了所有非自闭症儿童的平均脑量。

你现在会发现,这两个置信区间居然没有重合的地方。自闭症儿童的平均脑量所处的置信区间的最小值(1284.4立方厘米),依然要高于非自闭症儿童平均脑量所处的置信区间的最大值(1274.8立方厘米),请看下面的图解。
平均脑量样本分布图

假设自闭症儿童和健康儿童的脑量真的不存在任何解剖学上的差别,即他们属于同一个群体,那么两组样本均值出现如此巨大差距(一个是1310.4立方厘米,一个是1238.8立方厘米)的准确概率有多少?
如果我们从同一个群体里随机抽取两个大型样本,可以推断它们的平均值应该非常接近。比如,如果选取100位NBA球员并计算出他们的平均身高为2.01米,那么另外再随机抽取100位NBA球员,他们的平均身高也应该接近2.01米。也许这两组样本之间会有几厘米的差别,但是出现10厘米差别的概率很低,出现20厘米差别的概率非常非常低。

我们可以计算两个样本平均值之间差异的标准误差,用它来评估样本平均值的离散程度。通过这个标准误差,我们还可以计算出两个样本来自同一个群体的概率。以下就是具体流程:

1.假如两个样本均抽取自同一个群体,那么最好的结果是它们的平均值之差为零。

2.中心极限定理告诉我们,在重复抽取的样本群里,两个平均值(样本平均值与群体平均值)之间的差将会呈正态分布。

3.假如两个样本真的来自于同一个群体,那么有68%的概率,两个平均值之间的差小于一个标准误差;有约95%的概率,这个差会处于两个标准误差以内;有99.7%的概率会处于3个标准误差以内

(见正态分布图),这就是那篇自闭症研究论文的结论落脚点。

统计学中,根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量,称为【检验统计量】

检验统计量实际上是总体参数的点估计量(比如,样本均值就是总体均值的一个点估计量),但点估计量并不能直接作为检验的统计量。只有其标准化后,才能用于度量它与原假设的参数值之间的差异程度。

而对点计量标准化的依据则是:1)原假设 H0为真,2)点估计量的抽样分布。

假设检验中所用的检验统计量都是标准化检验统计量,它反映了点估量(比如样本均值)与假设的总体参数(比如假设的总体均值)相比相差多个标准差。

为叙述方便,通常将标准化检验统计量简称为检验统计量,检验统计量可表示为:

检验统计量=(点估计量-假设值)/ 点估计量的抽样标准差

自闭症和脑量的例子,是属于对两个总体均值之差的检验。

两个总体均值之差的统计量是以两个样本均值之差x1-x2的抽样分布为基础构造出来的。大样本情况下(样本数超过30),x1-x2,经过标准化后,则服从标准正态分布。

已知两个样本的标准差分别是x1和x2n1和n2分别两个总体的样本量,检验统计量为:

Z=两个样本均值之差/两个样本均值之差的标准差
Z=(x1-x2) /σx1-x2
=(x1-x2) / (s1 ^2/n1 s2 ^2/n2) ^0.5

检验统计量是一个随机变量,随着样本观测结果的不同,它的具体数值也是不同的,但只要已知一组特定的样本观测结果,检验统计量的值也就唯一确定了。

假设检验的基本原理就是根据检验统计量建立一个准则,依据这个难则和计算得到的检验统计量值,研究者就可以决定是否拒绝原假设。
如前文所述,
自闭症儿童的平均脑量为1310.4立方厘米,对照组儿童的平均脑量为1238.8立方厘米,所以两组儿童的平均脑量之差为71.6立方厘米。
自闭症组中59位儿童脑量的标准误差为13立方厘米;对照组中38位健康儿童脑量的标准误差为18立方厘米。
自闭症儿童组和对照组的平均脑量之差:
x1=1310.4, x2=1238.8, x1-x2=71.6
S1=13, n1=59; S2=18, n2=38; 
标准差  σx1-x2 = (s1 ^2/n1 s2 ^2/n2) ^0.5=(13*13/59 18*18/38)= 3.375
71.6/3.375=21.2
两组样本的平均值之差超过21个标准误差,我们能够据此计算出,如果这两个样本真的来自于同一个群体,那么出现如此极端结果的概率少于千分二。

综上所述,假设检验的步骤如下:
1、陈述原假设H0,和备择假设H1.
2、从所研究的总体中抽出一个随机样本。
3、确定一个适合的统计量,并利用样本数据计算出其具体数值。
总体均值的检验
Z=(x-μ)/(s/√n)
其中,x是样本均值,μ是总体均值,s是样本标准差,n是样本量。

总体比例的检验:

Z=(p-μ)/√(pq/n)
 其中,p是样本比例,μ是总体比例,q=1-p,n是样本量

两个总体均值之差的检验:

Z=(x1-x2) / (s1 ^2/n1 s2 ^2/n2) ^0.5
 其中,x1和x2分别为两个总体的均值,s1和s2分别两个总体的样本标准差,n1和n2分别两个总体的样本量。
4、确定一个显著水平α。
5、用P值做决策,拒绝原假设H0,或者不拒绝原假设H0。
总体均值的检验:
一个灌装饮料自动生产线,每罐的容量是255ml,标准差为5ml,为检验每罐容量是否符合要求,质检人员在某天生产的饮料中随机抽取了40灌进行检验,测得每罐的平均容量为255.8ml,取显著水平α=0.05,检验该天生产的饮料容量是否符合标准要求。
解,
1、【陈述原假设H0,和备择假设H1.】H0 μ=255;H1 μ≠255。
2、【从研究的总体中抽出一个随机样本】:质检人员在某天生产的饮料中随机抽取了40灌进行检验,测得每罐的平均容量为255.8ml。
3、【确定一个适合的统计量,并利用样本数据计算出其具体数值】:
因为总体均值的检验:Z=(x-μ)/(s/√n)
 Z=(255.8-255)/(5/√40)。(5/√40是抽样标准差,检验计量数值的含义是:样本均值与假设的总体均值相比,相差1.01个标准差。)
4、【确定一个显著水平α。】这里取显著水平α=0.05。
5、【用P值做决策,拒绝原假设H0,或者不拒绝原假设H0。】
Z=1.01,其含义是,原本均值,与总体的均值偏差1.01个标准差。P=0.3124,远远大于α=0.05,所以不能拒绝H0。
 已知Z值,可以查正态分布表得到P值,也可以使用EXCEL,在【公式】【统计】中调用 NORM.S.DIST函数计算。

NORM.S.DIST函数给出的数值,是Z值左侧的面积。

由于我们进行的是双侧检验,最后的P值是P=2*(1-0.8438)=2*0.156=0.312
如下图所示:



P值=0.312远远大于α=0.05,所以不能拒绝H0。

总体比例的检验

在构造检验统计量时,我们仍然利用样本比例p与总体比例π之间的距离多少个标准差来衡量,因为在大样本情形下统计量p近似服从标准正态分布。
例子:一种以休闲和娱乐为主题的杂志,声称其读者群中有80%为女性。为验证这一说法是否属实,某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。取α=0.05,检验该杂志读者群中的女性比例是否为80%,它的P值是多少?
1、【陈述原假设H0,和备择假设H1.】原假设H0=80%,备设假设H1≠80%;
2、【从研究的总体中抽出一个随机样本】:某研究部门抽取了由200人组成的一个随机样本,发现有146个女性经常阅读该杂志。
3、【确定一个适合的统计量,并利用样本数据计算出其具体数值】:
因为总体比例的检验:z=(p-μ)/√(pq/n);其中,p是样本比例,μ是总体比例,q=1-p,n是样本量
 抽样结果算得p=146/200=73%,
抽样比例与均值的距离是:0.73-0.8=-0.07
样本标准差为=√[0.8*(1-0.8)/200]=0.028
 Z=-0.07/0.028=-2.48(检验计量数值的含义是:样本比例与假设的比例相比,相差2.48个标准差。)
4、【确定一个显著水平α。】这里取显著水平α=0.05。
5、【用P值做决策,拒绝原假设H0,或者不拒绝原假设H0。】
 Z=-2.48  查正态分布表或用EXCEL函数得到P值,
 P=0.0132,远小于α=0.05,所以拒绝原假设,根据样本提供的数据证明该杂志的说法不属实。


08  回归分析

参数估计是利用样本数据推测总体参数,假设检验可用于检验两组数据是否来自同一个总体,如果我们要检验两组数据是否有相关关系,可以用回归分析这个工具。

回归分析】是一种广泛使用的统计分析方法,用于研究自变量与因变量之间的关系。

回归分析可以用来预测因变量的值,也可以用来探索自变量和因变量之间的关系,例如是否存在线性关系、正向或负向关系等。
假设Rocky的内衣制造公司现在想要预测每月销售额,他们怀疑销售额与广告费用之间存在着线性关系。他们收集了过去几个月的数据,得到以下数据:


现在,Rocky的内衣制造公司想要使用一元一次回归来预测每月销售额。他们希望得到一个回归方程,使得可以根据广告费用来预测销售额。
为了研究两个变量有什么关系,我们可以画一张散点图,即将一对数据看成是一个直角坐标系的一个点,横坐标广告费用,纵坐标是销售额。

在Excel上实现回归方程非常简单,详细步骤见文末的操作视频。

在excel图表添加趋势线,得到一条拟合线,这条拟合线就是回归函数。
在excel图表添加公式和R^2(也叫R方)。
这个公式就是这组数据的模型,y = 8.2286x 3076.2,表示广告费用每增加1元,销售额相应增加约8.2元。
R方是范围0~1的数值,R方 越高,预测准确度就越高。
比如当R方是 0.49,意味着什么呢?简单理解就是,这个预测大约有一半是准的,另外一半肯定存在不同程度的偏差。
而这个例子的R^2=0.9831, 代表极高的相关性。

在回归分析中,R表示相关系数,是一个介于-1和1之间的数值,用于表示自变量和因变量之间的关系强度和方向。

  • 当R等于1时,表示完全正相关,即两个变量的变化完全同步,关系最强。
  • 当R等于-1时,表示完全负相关,即两个变量的变化完全相反,关系最强。
  • 当R等于0时,表示不存在线性相关性,即两个变量之间没有线性关系。
  • 当R在-1到0之间或0到1之间时,表示存在一定程度的相关性,R的值越接近于-1或1,则说明相关关系越强。
需要注意的是,R只能描述变量之间的线性相关性,不能描述非线性相关性。


一元一次回归是一种基本的统计分析方法,可以用于分析一个自变量和一个因变量之间的关系。在实际应用中,一元一次回归常常被用来进行预测和预估。

对于Rocky的内衣制造公司,假设公司想要预测下一个季度的销售额,可以使用已有的数据建立一元一次回归模型,并根据模型对未来的销售额进行预测。如果模型的预测效果良好,那么公司可以更加准确地做出销售计划,提高公司的经济效益。

在Excel上实现回归方程的操作视频:



到现在为止,您已经掌握了统计学的主干,能应付大部分的问题。但这还不足够,碰到实际的问题时,我们需要多思考,多应用,才能真正掌握,灵活变通。

在这个系列里,我打算到此为止。

极简系列的每篇文章组成了联系紧密的系统,后续我会继续分享统计学的知识,但会比较分散一些。

《极简统计》参考资料:
《统计学》--贾俊平
《精英日课》--万维钢
《统计学20讲》--刘嘉
《赤裸裸的统计学》--查尔斯·韦兰
ChatGPT--OpenAI
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
想玩转t检验?你得从这一篇看起 | 协和八
科研论文中的数据描述的意义是什么?
不要再问统计学了!
只讲 p 值,不讲效应大小,都是耍流氓!| 协和八
如果数据分布是非正态的怎么办?用切比雪夫不等式呀!
116思维模型:正态分布一核心的概率分布
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服