打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
正态分布与中心极限定理:上帝之手

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

(物理学家认为正态分布已经在数学上得到证明,而数学家则认为正态分布在物理试验中得到确认。)

——Henri Poincaré(昂利·庞加莱,法国数学家)

我们在高中数学选修2-3学习随机变量的时候,都接触过一个非常特殊的函数:

课本上称它为正态分布的密度函数。如果是在选修2-3中第一次接触到这个函数,我想很可能是会给人带来很大困惑的:首先,整个高中数学里就没有多少场合是把某个特殊的函数(除了基本初等函数以外)的解析式单独以定义的形式写出来,并且还特意强调其重要性的。在有些部分(比如圆锥曲线的章节)中,可能课本会介绍若干比较复杂的公式,但这些公式的几何意义和研究动机通常都是解释得非常清晰的。然而对于正态分布的密度函数,课本在引入它的时候,事先只给出了高尔顿钉板实验的一个示意图,随后就将这个直方图形状的图像奇迹般地用一条连续的钟形曲线做了拟合——并且不管三七二十一地立刻声称这条曲线的解析式就是

.


高尔顿钉板实验

第一次接触正态分布的人,可能会感觉这简直就像是江湖骗子算命一样:凭着一点简陋的初始(而且是离散的)数据,居然立刻就能给出一个复杂程度相当高的连续函数作为它的拟合?不仅如此,这个过程更让人惊叹的地方在于,即使我们对

这个函数是完全陌生的,我们却能够从中隐约感受到一种精巧的构造和平衡感,一种数学对象所具有的秩序感。别的不说,e和π两个重要的数学常数就同时出现在了这个函数里。不仅如此,形式如此复杂的一个函数,图像却是一条对称、光滑、甚至可以说是姿态很优美的曲线。我们接触过的绝大部分初等函数,能有这样漂亮的图像吗?反过来说,我们徒手画出的曲线确实可以十分优美,但我们能为随便一条手绘的曲线都找到一个如此精巧的解析式吗?

种种迹象都表明这个函数绝不可能是凭空构造出来的。更令人惊奇的是,课本随后还介绍到正态分布在现实中的意义:

'在现实生活中,很多随机变量都服从或近似地服从正态分布。例如:长度测量的误差;某一地区同年龄人群的生理指标(如身高、体重、肺活量);一定条件下生长的小麦的株高、穗长、单位面积产量;正常生产条件下各种产品的质量指标(如零件的尺寸、纤维的纤度、电容器的电容、电子管的使用寿命等);某地每年某一时期的天气指标(如平均气温、平均湿度、降水量等),一般都服从正态分布。'

如果大街上一个不认识的人上来就把正态分布的密度函数展示给我看,随后就声称上述种种自然现象全部都服从这个分布,我是无论如何也不会相信的。然而令人惊奇的是,数学课本居然也这么告诉我们。一个再自然不过的问题就是:这个函数究竟是怎么被人们找到的?此外,为什么如此丰富、如此复杂的自然现象竟然全部都服从于这条简洁而奇特的曲线?这背后的原因是什么?

正态分布的密度函数

在这篇文章中,我希望能对这几个问题给出介绍性的回答。我们将会先看一看18世纪数学家棣莫弗是如何在对二项分布的研究中,第一次导出正态分布这个美妙的函数的。之后我们将会看到人类历史上最伟大的数学家之一高斯,在研究测量误差的分布时,是如何利用他天才的数学能力企图'猜测上帝的意图',通过一系列推理,让正态分布的密度函数从纷繁芜杂的随机误差中显现了出来。最后,我们将简单介绍现代概率论中最重要的定理之一:中心极限定理。这个定理的内容绝不仅仅是抽象的数学;它巨大的力量就如同一只上帝之手般,在世界上几乎所有的混沌和乱象背后,以一个永恒的数学表达式束缚着这一切的秩序。这篇文章不仅希望让能读者对正态分布的早期历史有一个简单的了解;更重要的是,希望能让读者感受到正态分布绝不仅仅是一个普通的函数,而是有着令人震撼的美和力量。

一、棣莫弗:正态分布函数的首次发现

棣莫弗(Abraham de Moivre, 1667-1754)是18世纪初的法国数学家,他的著作《机遇论》对概率论这一数学分支的早期发展起到了非常重要的影响。古典概率论起源于对赌博(这是一类最容易引起人们兴趣的随机现象,原因不言而喻)中产生的一系列问题的研究。二项分布的概念就正是在棣莫弗的时代从一些赌博问题中产生的。

棣莫弗

我们在高中课本中都学过二项分布:假设做某个随机试验只有成功和失败两种可能结果,成功概率为p,且每次试验的成功与否都彼此独立,那么将这个试验连续进行n次,其中的成功次数X就服从参数为n、p的二项分布B(n, p):

但是二项分布的表达式中有组合数,在n很大时组合数的计算通常是费时费力的。于是棣莫弗就希望寻找n很大时二项分布的近似表达式(用今天概率论的语言来说,就是二项分布的极限分布)。

我们知道组合数中有阶乘,因此要对组合数做近似计算,如何将阶乘化为其他表达式是很关键的。棣莫弗在这点上可以说是比较幸运的,因为和他同时代的苏格兰数学家斯特林(James Stirling)在数学分析方面有研究,并且两人还有书信来往。斯特林提出了一个在组合数的近似计算中有极大作用的公式,被称为斯特林公式:当n很大时,我们有

棣莫弗正是利用这个公式,导出了二项分布的一个特殊情况的极限分布。他研究的特殊情况是B(n, 0.5),也就是将一个成功和失败概率都为0.5的随机试验重复n次,研究成功次数Xn在n很大时的分布。这个随机变量可以在赌博中找到鲜明的实例:如果我和别人赌抛一枚硬币的结果是正面还是反面,赢了赚1元钱,输了赔1元钱,那么连续赌n把之后我的净收入(赔钱计为负数)就正是随机变量Xn。我们来看看他是怎么计算的。

我们先假设这个实验重复的次数是偶数次(奇数次的情况可以被与它相邻的两个偶数的情况估计)。我们有:


利用斯特林公式,我们把分子和分母上的阶乘都替换掉,并且进行一些化简

这个式子是三项的乘积,其中最后一项在n趋于无穷大时极限为1,可以省略。而针对第二项分母上的三个指数式,微积分中有一个基本结果:



利用这个结果,假设
,我们就可以进一步化简:n趋于无穷大时,



从而如果我们计算
落在某个区间[a,b]内的概率,并且以定积分作为和式在n趋于无穷大时的极限,就有:


看看我们得到了什么?左侧这个随机变量

是赌博结果
的标准化(除以一个系数使得其方差变为1,避免方差趋于无穷大,从而其分布可以真实反映极限分布);而在右侧,我们得到的正是标准正态分布密度函数的积分!这就是棣莫弗在1733年得到的结果:抛硬币所得到的二项分布,在n很大时(标准化后)会收敛到一个特殊的分布——标准正态分布。不久之后法国数学家拉普拉斯改进了棣莫弗的结果,使得这个结论(n很大时趋于正态分布)对任意的二项分布B(n,p)都成立了。这个结果被称作棣莫弗-拉普拉斯中心极限定理,是中心极限定理的雏形和一个特例。

大量重复抛硬币实验后形成的频率分布直方图,正态曲线从中浮现

(图片来源:维基百科)

棣莫弗的工作使得正态分布的密度函数第一次出现在了人类眼前。但是在他那个年代,人们对这一分布还毫无了解,而棣莫弗自己并没有统计学背景,也不可能想到这个分布在统计中将会有什么样的应用。因此,虽然棣莫弗从一个特例中导出了正态分布,却不会想到它在自然界中具有普遍性和极其优美的性质,从而也就和它擦肩而过了。但是,这个例子使我们非常直观地看到,正态分布优美的函数是如何从复杂的式子和混乱的计算中,像是冥冥之中自有天意般地显现出来。

二、高斯:猜测上帝的意图

德国数学家高斯(Carl Friedrich Gauss, 1777-1855)被公认为人类历史上最伟大的数学家之一,在数学的各个领域都有非常大量的贡献。而他一生被公认为最杰出的成就之一,就是导出了随机测量误差所服从的概率分布:正态分布。这一成就的伟大可以从许多方面看出来:正态分布在19世纪很长时间内被欧洲数学家直接冠名为高斯分布;而1977年高斯二百年诞辰之际德国发行的纪念纸币上,印着的也正是正态分布。

10马克纸币上的高斯头像和正态曲线

17-18世纪人们之所以开始关注随机误差分布这样一个问题,主要是由于天文、航海、测地等学科的发展,这些学科中测量、计算、回归、误差分析等等问题都处在最核心的位置上,因此自然推动了数学中对这些主题的研究。误差分布的问题其实很简单:已知有一个真值θ需要测量,测量的结果X是一个随机变量,那么X-θ也是一个随机变量,并且常识告诉我们它是连续的。误差分布就是要求这个连续随机变量X-θ的密度函数f(x)。

在高斯之前几个世纪,人们已经对f(x)有了定性的认识了:这个函数关于0点是对称的;并且绝对值大的误差出现概率小,绝对值小的误差出现概率大。但是从来没有人能够给出这个函数究竟是什么。这确实有点太像在猜测上帝的意图了:难道随机误差这种东西可以用一个解析式刻画?什么样的解析式才能具有这样巨大的力量,能够支配一切随机误差的行为?的确是非常难以想象。这就轮到高斯出场了。他在1809年发表的一篇关于数据分析(其中涉及对谷神星位置的计算和预测,这同样是高斯生平非常辉煌的一件成就)的论文中,采取了一条非常异于常人的思维路线,导出了随机误差的分布——正是正态分布。

高斯的想法可以这样简单描述:我们平时做物理、化学等实验的时候,对许多物理量都习惯采取测量多次取平均值的做法。经验表明,如果对真值θ的n次测量结果是

, 那么
是对θ的一个很好的估计。这是我们都熟知的算术平均值。然而高斯的天才就在于,他反其道而行之:如果我们不把n次的测量结果当成随机变量,而把真值θ当成一个待估计的随机变量呢?既然我们日常生活中采取算术平均值作为θ的最好估计,那它一定有它的道理。他大胆断言:对于确定的
, 如果误差分布的函数是f(x),那么测量误差
的联合分布:

在看成是θ的函数时,应当在算术平均值

处取得最大值(因为这是在确定的一组测量值
,对真值最好的估计)!

基于这个想法,立刻可以展开一连串的推导。我们知道导数可以描述函数的极值点,这意味着:

(L(θ)和它的对数值增减性相同,对对数求导有利于计算。)把这个导数算出来:

我们记

,于是:

这里的关键在于,这个式子对任意的一组测量值

都应当是成立的,因此我们可以取特殊值代入。如果取n=2,那么对任意的实数x,如果取X1=x,X2=-x,就有:

再取

就有:



这个式子对所有整数m和实数x都成立。取x=x'/m,就有:

从而

对所有有理数q都成立。只要我们添加g(x)连续的条件(这对误差分布而言是自然的),就可以导出
对所有实数r都成立。满足这一条件的函数只有正比例函数:



这个方程是很好解的,最基本的微积分工具就可以解决。它的解是:


其中M是常数。考虑到f是一个概率密度函数(它就是我们要求的误差分布),我们要求f在实数集上的积分是1,同时我们还希望把f标准化,使得对应的随机变量期望和方差都为1(这两个操作在概率论中合称为正规化)。利用积分为1和方差为1两个条件,就可以解出系数M和c,具体推导过程不需要很深的微积分知识,但出于长度考虑,我们放在文末,有兴趣的读者可以阅读。最终的结果正是:

多么熟悉的结果——同时又是多么地出乎意料!高斯竟然基于“算术平均值是对真值的良好估计”这样一个再简单不过的法则,生生把随机误差服从的概率分布——正态分布,当成一个函数给解出来了!

生物学家、统计学家高尔顿(就是文章开头提到的高尔顿钉板的发明者)曾经感叹过高斯这个结果的震撼:“我几乎不曾见过像误差呈正态分布这么美妙而激发人们无穷想象的宇宙秩序。如果古希腊人知道这条曲线,想必会给予人格化乃至神格化。它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多,无政府状态越显现,它就统治得越完美。他是无理性世界中的最高法律。当我们从混沌中抽取大量的样本,并按大小加以排列整理时,那么总是有一个始料不及的美妙规律潜伏在其中。”

然而,接下来我们马上就将看到,随机误差服从正态分布这个事实,只不过是更普遍、更令人震撼乃至震惊的一个定理——中心极限定理——的特例。中心极限定理,是真正地将正态分布那“上帝之手”般巨大的支配力和统治秩序体现到了淋漓尽致。

三、中心极限定理:上帝之手

高斯关于随机误差的论文发表于1809年,立即将正态分布推上了概率论这个方兴未艾的研究领域的风口浪尖。拉普拉斯是同时期法国一位著名的数学家(值得一提的是,他在高斯之前也研究过随机误差的分布,但失败了),前面我们提到他改良了棣莫弗的结果,认识到独立的n个随机试验的结果之和(二项分布)总是趋于正态分布。这自然使得他开始考虑一般的独立同分布随机变量的和的分布的问题。拉普拉斯也是一位非常有天赋的数学家,他富有创新性地引入了特征函数的工具。一个随机变量X的特征函数φ(t)定义为:


也就是说,对于每个复数t,特征函数在t处的取值是随机变量e^(itX)的期望。对傅里叶分析有一定了解的读者(笔者并不属于此列)会看出这就是在对X做傅里叶变换——拉普拉斯创新性地将分析中的工具用在了概率论中。利用特征函数的工具,他证明了中心极限定理的一个初期版本。实际上仅仅使用特征函数,就已经可以对他的工作进行改良,从而得到下面的结果:

[中心极限定理,独立同分布的情形] 对于独立同分布、期望μ和方差σ^2均有限的随机变量

,记其和为Sn,在n趋于无穷大时,有:



也即,Sn的标准化的分布收敛到标准正态分布。

这已经是相当令人震撼的一个结果了:正态分布这种“支配”的力量远远不仅是只在二项分布上才起作用。只要是独立同分布的一列随机变量,无论它的输出值可以多么随机、多么混乱甚至病态,当我们对它求和的时候,随着求和项数的增多,一个永恒不变的秩序都会在它背后慢慢地、然而是不可避免地浮现出来:优美的正态分布。

中心极限定理

然而我们今天知道的还不止于此。在拉普拉斯之后的一百多年里,一大批数学家前赴后继地对中心极限定理做了许多的强化、一般化、推广。事实上,中心极限定理中的“中心”一词并不是在描述随机序列的和“被正态分布这个中心所吸引”的现象,而是它在概率论学界中的地位——它在很长一段时间内占据了整个概率论研究的中心。在20世纪,一批优秀的俄国数学家(包括柯尔莫哥洛夫、马尔可夫等等,都是概率论领域的翘楚和奠基人)对概率论完成了严格的公理化,中心极限定理最强的版本也在这个时期得到了证明:我们并不要求

一定是独立同分布的;它们可以服从完全不同的分布,但只要它们中的任何一项不对序列和起到潜在的“致命影响”(即方差过大),那么它们的和依然会依分布收敛到正态分布。

正态分布就像是一个黑洞,一双无形的大手,所有的混乱都被它消解掉,所有的随机现象都被这一个表达式牢牢抓住。这哪里还是一个普通的概率分布?中心极限定理真的已经具有一点宗教色彩在里面了。上帝是否存在,我们活着的人谁也无法亲眼见到,可是我们每个活着的人都能亲眼看到这一只潜藏在所有随机变量后面的上帝之手,它的名字叫中心极限定理。

通过中心极限定理,无论是前面所讲的棣莫弗最早的关于抛硬币的结果,还是高斯所得到的随机误差的分布,都可以得到一个统一而简洁的解释了。对于随机误差,它服从正态分布的根本原因是因为它可以看成大量微小扰动(例如神经系统、大气系统、光照强度的扰动等等)的叠加——拉普拉斯称之为“元误差”。这些微小扰动都是接近独立同分布的,而且即使不独立同分布,任何一个微小扰动也都不足以造成致命的误差。因此根据中心极限定理,它们的叠加值服从正态分布是必然的结果。

我们再简单讲一讲中心极限定理在统计学中的意义。这里限于笔者知识范围所限,无法展开详述,但事实上,正态分布在统计学中所占的地位可以说更甚于它在概率论中的地位。中心极限定理揭示了正态分布在自然界中普遍存在的原因,因此虽然它本身并不是统计学的定理,却直接确立了正态分布在统计学中的地位,甚至可以说奠定了数理统计整门学科的理论基础。

早在19世纪,统计学家就已经发现用正态分布来拟合大量随机数据的分布常常具有良好的效果。在统计学发展的初期,对数据分布做正态近似这一简单而有效的方法曾经被非常普遍地、甚至有些近乎滥用地应用到各种各样的数据分析上。而在20世纪初,英国堪称现代数理统计开创者的三位学者皮尔森(Pearson)、戈塞特(Gosset)和费舍尔(Fisher)全面建立了假设检验的理论——现代统计学的基石之一,从而正态分布依靠严格的理论支撑,真正渗透到了统计学的每一个角落之中。

最后,回到我们在文章开头所讲的高尔顿钉板。高尔顿本人用这个钉板来对为何许多遗传指标(例如身高)也同样近似服从正态分布给出了一个解释:钉板装置可以模拟遗传过程中一系列随机因素造成的影响。我们可以想象在高尔顿钉板中间的某处水平放置一个挡板AB,将装置分为上下两个部分。如果这时我们放小球进入装置,那么AB平面上将会形成一个近似正态分布的图形,代表父母一代的身高分布。这时如果我们在AB平面上打若干小孔,使小球从这些小孔继续向下随机运动,那么最终在钉板底部所形成的图案会是几个小的正态分布。这本质上是在描述一个数学事实:正态分布的和仍然是正态分布。

数学是一门抽象的艺术。这句话可以从两个角度理解:数学所做的事就是在抽象——从现实世界中凝练出一些高度抽象的对象,在对这些对象的研究中获得具有普遍性的结果;但与此同时,数学本身难道不也是一门艺术吗?正态分布和中心极限定理把这句话的两个方面给同时体现得淋漓尽致了。如果这篇文章能把数学的美和力量展现出一点来,就已经完全达到目的了。


附:函数

的正规化

这个函数已经是偶函数,所以对应的期望值是0,不需要平移。正规化要求它在实数轴上的积分和它对应的随机变量的方差均为1,即:

针对第一个积分,如果我们知道了

的值,那么就可以用换元积分将它计算出来。这个积分被称作高斯积分,在许多理工科有着非常广泛的应用(其实其中一个原因就是它跟正态分布的联系...)。虽然它的被积函数被证明不存在初等原函数,但是可以用一个特殊的技巧求出来。我们用极坐标计算一个重积分:

重积分可以化为累次积分,而我们发现,这个重积分化成累次积分恰好就是高斯积分的平方!从而我们得到高斯积分的值是根号π,于是通过计算,第一个条件变为:

而第二个条件中的积分可以用分部积分来求,其中再一次用到了高斯积分的结果:

从而就得到,方差为1的条件对应着M、c所满足的关系是:

联立得到的两个式子,就可以从中解出

,正是正态分布密度函数中对应的系数。


参考资料:

人教版高中数学选修2-3(A版)

rickjin,《正态分布的前世今生》,http://www.flickering.cn/数学之美/2014/06/火光摇曳正态分布的前世今生上/

E.T. Jaynes, Probability Theory: The Logic of Science, Cambridge University Press, 2003

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
概率论一些知识
正态分布到底是怎么来的?| 协和八
科学松鼠会 ? 正态分布的前世今生(上)
正态分布的前世今生(壹)
为什么数据科学家都钟情于最常见的正态分布?
高斯!为什么又是你?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服