数学家眼中的概率究竟是怎样的（一）：神秘的不可测集

Giuseppe Vitali (1875-1932)

本文献给有好奇心的你：数学家眼中的概率究竟是怎样的？什么是不可测集？什么又是 σ 代数？为什么说随机变量既不随机，也非变量，而是一个可测函数？如果你有胆量读下去（分两次推送），你的思想就能升华……

~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

无论自然界与人类社会都充满了随机性，而概率则是描述随机现象的语言。在一般的（初等）概率统计教材中，通常将概率直观地定义为在大量重复随机试验中，随机事件发生的频率所趋向的某个稳定值。这个定义贴近生活，容易理解，却有些模糊。

概率论起源于赌场，最初主要探讨在赌博意外中断的情况下如何分赌资之类的问题。这样的出身显然并不高贵，再加上缺乏一个严格的理论基础，使得概率论在数学界长期被视为另类，直至1933年概率公理化体系的出现。那么究竟应如何给出概率的严格定义呢？

样本空间与随机事件

一般将随机试验的所有可能结果之集合称为 “样本空间”（sample space），记为。将样本空间中的每个结果（outcome）称为 “样本点”（sample point）或 “基础事件”（elementary event），记为

。“随机事件”（random event）则为样本空间的子集（subset），由若干样本点所构成。

比如，掷一枚骰子，则样本空间为

分别对应于骰子的 6 个面。如果骰子是公平的（fair），则每个面发生的概率均为 1/6。记随机事件

为看到奇数面，即

则随机事件

发生的概率为 1/2。更一般地，对于此样本空间中的任何一个子集

，都容易得到其相应随机事件的概率。

这一切看上去简单而美好，也不会发生悖论，但这仅仅是一个离散的样本空间，其随机试验的可能结果是可列的（countable）。然而，如果考虑电灯泡的寿命，则其可能结果就是一个不可列（uncountable）的连续变量。又比如，经济学中的许多变量（比如收入），都是连续型的随机变量。

不失一般性，假设样本空间就是整个实数轴，即

；而每个实数均为其样本点。对于实数轴上由任意一些点所构成的点集，我们也希望将其视为 “随机事件”，并给它分配一个相应的概率。这个愿望看似简单，却无法实现，因为存在 “不可测集”（non-measurable set）。

不可测集

众所周知，实数轴上的每个区间都有长度，比如

的长度为

。那么对于实数轴上的任意一个点集（可能是很奇怪的点集），是否也都能度量其长度呢？很遗憾，答案是否定的。1905年，意大利数学家 Giuseppe Vitali (1875-1932) 发现了第一个不可测集，后来称为 “Vitali 集合”（Vitali sets）。

Vitali 使用一种 “等价关系”（equivalence relation），将

区间内的点进行分类，即如果两点之差为有理数，则这两个点属于同一类：

容易验证此关系 “

” 具有自反性（reflexive），即

对称性（symmetric），即

以及传递性（transitive），即

因此，关系 “

” 为等价类（equivalence classes），构成对区间

的一个分割（partition）。例如，所有的有理数属于一类（因为有理数之差仍为有理数），而

与

属于同一类，等等。

根据 “选择公理”（Axiom of Choice），可从以上每类中取出一个点，所构成之集合即为 Vitali 集合，不妨记为

。显然，集合

的 “长度”

要么为0，要么

。令人惊奇的是，可以证明，无论哪种情况，都会导致悖论。

考虑使用区间

内的某个有理数

对集合

进行位移（translation），可得集合

进一步，如果使用区间

内的所有有理数对集合

进行位移，然后将所得的所有集合并在一起可得：

不难看出，如果位移不同，比如

，则集合

与

没有交集（disjoint）。因此，

的长度应为上式中每个集合

的长度之和：

显然，位移不会改变点集的长度，故

。因此，

其中，区间

内的有理数为无穷多个（可列个）。

显然，如果

，则

的长度为无穷大。然而，由于

包含在

中，而

取自

，故集合

必然包含在

中（此结论对于所有

均成立）。这意味着

的长度不会超过 3 。因此，唯一的可能性是

，故

。

另一方面，不难证明，

包含于集合

，故

，导致悖论。证明如下。

假设

，则可找到某个

，使得

与

归属同类（有可能

，但不影响结论），即

。由于

，故

。移项可得，

，故

因此，

包含于集合

。

此例中的 Vitali 集合

就是一个不可测集（不得不惊叹于 Vitali 的奇思妙想）。直观上，它是一个很奇怪的集合（无法将其画出来！）。一方面，不能将 Vitali 集合的长度设为 0，因为其可列个不相交的位移之并集（union of countable disjoint translations）就能覆盖整个

区间。另一方面，也不能将 Vitali 集合的长度设为正数，因为其可列个不相交的位移之并集的长度依然是有限的（finite），比如小于 3 。

Banach-Tarski 悖论

后来，数学家发现了更多的不可测集。其中，最著名的当属 “Banach-Tarski 悖论”（也借鉴了 Vitali 集合的思想）。1924年，波兰数学家 Stefan Banach 与 Alfred Tarski 合作发表了一篇论文。

Banach 与 Tarski 证明，给定三维空间中的一个球，可将其分解为有限个子集（subsets），然后仅对这些子集进行刚体运动（比如，位移、旋转）而不进行任何拉伸或变形，重新组装后就能得到与原来一模一样的两个球。

数学家竟然成了魔术师，而这显然违背了我们关于体积的直觉。当然，这种分解与组装在物理上并不可能，因为它事实上将三维球分解为不可测的子集。因此，将不可测的子集再组装回去时，体积不再保持不变。

回到样本空间

回到前面的样本空间，上述讨论意味着，并非样本空间的任何子集

都是可测的（measurable）。换言之，对于某些子集

，我们无法给出其发生概率

，而不导致悖论。

由此，我们将何去何从呢？且待下期推文。

高级计量经济学与Stata现场班

（上海，五一节，详情点击底部原文链接）

www.econometrics-stata.com

转载请注明作者与出处

Our mission is to make econometrics easy, and facilitate convincing empirical works.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。