打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
张驰咨询:趣说正态分布(4)- 六西格玛管理培训

中心极限定理告诉你为何万千分布独爱正态分布一个


通过前面几篇关于正态分布基础知识的铺垫,本篇解读中心极限定理,图示原本服从均匀分布的随机变量均值以及随机变量之和如何近似服从正态分布。

准备考绿带、黑带的朋友注意了:中心极限定理是必考题,尤其是作为绿带的计算题,掌握了就是送分题。

中心极限定理

小王说:我超爱抄书。翻开第三版《六西格玛管理》第158页,定理2(中心极限定理):
设X1,X2,...,Xn是n个独立同分布的随机变量,且有有限的数学期望和方差,分布均值为μ,方差为σ2,则当n较大时,有

当X的分布对称时,只要n≥5,近似效果就比较理想;当Xi的分布不对称时,要求n值较大,一般n≥30时近似效果较理想。
这个定理表明:无论随机变量服从何种分布,可能是离散分布,也可能是连续分布,连续分布可能是正态分布,也可能是非正态分布,只要独立同分布随机变量的个数n较大,那么,随机变量之和的分布、随机变量均值X的分布都可近似为正态分布。

小王说:抄书完毕。依旧来烧脑画图理解书上的内容尤其是蓝字部分,再告诉准备参加中质协绿带、黑带考试的朋友,一般考中心极限定理的题目怎么考。

X1,X2,...,Xn是n个独立同分布就不用再说了,在《趣说正态分布2》和《趣说正态分布3》都提到过,下图图示就是独立同分布的形态。


举个简单一点的例子吧,投骰子:

一个均匀的骰子投掷6000次,6个面出现的概率基本一致,理想的分布是1,2,3,4,5,6点每个面出现约1000次,这是离散均匀分布,投掷次数一多,机会非常平均,如下图,所以呀,均匀分布还有个昵称叫矩形分布。



小潘:数学怎么还有昵称呢,你编的吧?

小王:小潘,你在家的昵称或者小名叫什么呀?

小潘笑嘻嘻的操起一副京腔:不告儿你,呵呵。

小王接着说:不告就不告。来了啊,变魔术的时刻到了。

这么四四方方一个图,将两次抽样X1和X2进行平均,得到的图形应该长啥样呢?如下图。



上面是n=2的情况,前面蓝字部分书上的内容说了:可能是离散分布,也可能是非正态分布,只要独立同分布随机变量的个数n较大,那么,随机变量均值X的分布都可近似为正态分布。注意是近似哦,看作是。
我们将5次抽样X1,X2...X5进行平均,得到的图形应该长啥样呢?如下图。


将30次抽样X1,X2...X30进行平均,得到的图形应该长啥样呢?如下图。



图形不是我们的重点,看到有一根红色的概率密度曲线象正态分布的样子能理解就可以了,重点是看看图中红圈圈圈着的标准差:当n=2的时候,标准差=1.207;当n=5的时候,标准差=0.7792;当n=30的时候,标准差=0.3118,均值μ=3.495、3.494及3.503,倒是变化不大。这怎么回事呢?


括号里面的均值μ没变,方差变了。所以,无论n=2,n=5,还是n=30,均值μ确实基本相同。因为是抽样,基本一致,不是完全分毫不差哦。
我们用计算器来算几个数字:
1、假设总体就是n=30,我们已知的标准差=0.3118,现在假设不知道这个总体标准差的值,用样本来估算:



反过来:

2、假设已知总体n=30,标准差=0.3118,计算样本标准差:

①  用n=2的样本来估算总体,则:



 ②  用n=5的样本来估算总体的,则:



3、n=2和n=5之间的换算略。

考友们注意了,考友们注意了。

考试一定会考标准差或方差的换算,也许是公式,也许是简单的数字计算,理解了就好,不会有上面的例子数据这么难算的。虽说可以带计算器,毕竟考试时间有限,一般计算题会是一眼能算出来的数字,比如25、16、9、4、1的开平方,真出了计算起来很麻烦的题,可能会只考公式不会考计算结果。考题再怎么翻来覆去的也逃不过如来的五指山,两个方向:不论考题说总体标准差知道,计算样本标准差;还是用样本去估算总体。实质概念不变,都是为了考对中心极限定理的理解。

重要事情再说一遍:

考试会比我们这个例子更简单,因为考题只有2个方向:

① 一般会直接说样本的方差或标准差(没我们上面计算中的根号2或根号5什么事),推算总体方差或标准差;
② 已知总体方差或标准差,计算样本的方差或标准差。


考友们注意了:

① 把n=几看清楚;
② 把题目问的是方差还是标准差看清楚,区别只是要不要开根号而已,没有难度。

理解了中心极限定理本尊,书上159页再说什么标准误,就没有难度了,不过还是把书抄一下吧:

统计学中把均值X的标准差称为均值的标准误,记为σX或SEM(standard error of the mean),无论是正态还是非正态,均值的标准误都有
,SEM随着n的增加而减少。

是的,样本和总体的标准差叫标准差,这个标准差是正宫娘娘生的,直接正名;标准差的名字被用掉了,那随机变量均值X生出来的标准差就不能再直接叫标准差了,为了体现他们的兄弟情,叫标准误,实际上还是长成标准差的模样无异,考试的时候只要看到随机变量均值X和方差或标准差,请马上联想到中心极限定理,而且在考题中不一定会说成标准误哦,也许就叫标准差。

考试考来考去就考蓝色标记的这个公式,知道中心极限定理,这个蓝色标记的公式就顺理成章了,不用死记硬背。

以上是随机变量均值X的情况,随机变量之和道理也一样。

呀,突然发现有2个均值,数学君没给他们起别名。为了避免混淆,通篇重新写清楚是随机变量均值X还是近似服从正态分布的样本或总体的均值μ。上面图形圈了红圈圈的均值是括号里面的具体数值均值μ。
是的,随机变量之和的分布与随机变量均值的分布,道理也一样。呜呜,好想数学君也像标准差改成标准误一样给和值的均值和标准差也起个均直直和标准叉叉啥的别名,这下都不会写了,你自己仔细看括号里面的均值和方差变化吧,也好
理解,正态分布就涉及均值和方差两个参数,独立同分布的随机变量都相加,括号里的均值和方差都多了n倍。

近似服从均值为nμ、方差为nσ2的正态分布N(nμ,nσ2),我们也画图瞧瞧呗。

X1+X2的图形:



X1+X2+X3+X4+X5的图形:



X1+X2+...+X30的图形:




小王叹了口气,说:本文图示了均匀分布变成近似正态分布,没想到还要标注此均值非彼均值,好累啊。等我有空下次再给你举其他分布比如指数分布的例子。只要n够大,只有柯西分布没有样本均值而不可以,其他什么指数分布、对数分布、均匀分布,统统都可以近似正态分布。

小潘急忙说:你必须有空。要是都这样了,那我们可以偷偷懒不去烦心那些复杂的源数据到底是什么分布,直接抽样30组或以上数据,看成正态分布来对待就好啦。至少现在正态分布的图形在我脑海中是清晰的,其他已经早就还给老师了。嗯,难怪你大书特书正态分布,又加深认识了。

原文来源张驰咨询:未经作者同意,如有转发需要必须在文章中给出原文链接,否则必究!
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
116思维模型:正态分布一核心的概率分布
Python学习教程:正态你还不会吗?这期的Python教程你肯定能学会
数据科学家必须掌握的 10 个统计概念
5
华东师大心理学统计笔记
中心极限定理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服