打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
贝叶斯定理,不信看完这篇还不懂!
userphoto

2023.10.20 江苏

关注
来源:图灵新知
本文约3800字,建议阅读10分钟
本文教你如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。

当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

来源 | 《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者 |[美] 威尔·库尔特(Will Kurt)
译者 | 王凌云

当一个事件的结果不影响另一个事件的结果时,这两个事件就是独立事件。例如,掷硬币时出现正面并不影响掷骰子是否会掷出6点。计算独立事件的概率要比计算非独立事件的概率容易得多,但独立事件往往并不能反映现实生活。例如,闹钟不响和上班迟到就不是独立事件。如果闹钟没有响,你上班迟到的可能性就要比其他时候大得多。

在本文中,你将学习如何分析条件概率,即事件的概率不是独立的,而是取决于特定事件的结果。此外,还将介绍条件概率最重要的应用之一:贝叶斯定理。

1 条件概率

条件概率的第一个例子将研究流感疫苗和接种疫苗可能出现的并发症。当在美国接种流感疫苗时,你通常会收到知情同意书。它告诉你与之相关的各种风险,其中之一是吉兰它巴雷综合征(Guillain-Barré syndrome,GBS)的发病率会增加。GBS是一种非常罕见的疾病,它会造成人体的免疫系统攻击神经系统,从而导致潜在的、危及生命的并发症。根据美国疾病控制与预防中心的数据,在某个特定年份,人们患上GBS的概率为2/100 000。这个概率可以表示为:

通常情况下,流感疫苗只会稍微增加患上GBS的概率,但2010年暴发了猪流感,如果你在那一年接种了流感疫苗,患上GBS的概率就会上升到3/100 000。在本例中,患上GBS的概率直接取决于你是否接种了流感疫苗。这是一个条件概率的例子。我们将条件概率表示为 

,即在事件 
 发生的条件下事件A发生的概率。在数学上,我们将在接种流感疫苗的条件下患上GBS的概率表示为:

这种表示读为“在接种流感疫苗的情况下,患上GBS的概率是十万分之三”。

1. 为什么条件概率很重要

条件概率是统计学的重要组成部分,因为它使我们能够证明信息是如何改变信念的。在流感疫苗的例子中,如果不知道某人是否接种了疫苗,那么你可以说他患GBS的概率是

,因为这是人群中的任何一个人在那一年患GBS的概率。如果这一年是2010年并且这个人告诉你他打了流感疫苗,那么你就知道,他患GBS的真正概率是
。我们也可以计算这两个概率的比值,就像下面这样:

因此,如果你在2010年接种过流感疫苗,我们就有足够的信息相信你比一个随机挑选的人患GBS的可能性高50%。幸运的是,在个人层面上,每个人患GBS的概率仍然很低;但如果把人群作为一个整体,那么我们可以预计,接种过流感疫苗的人群患GBS的概率要比普通人群高50%。

还有许多其他因素可能会增加人们患GBS的概率,例如,男性和老年人患GBS的可能性更大。使用条件概率,我们就可以将所有这些信息综合在一起,从而更好地估计每个人患GBS的概率。

2. 依赖性与概率法则的修订

来看条件概率的第二个例子:色盲症。色盲是一种视力缺陷,患有色盲症的人难以辨别某些颜色。在普通人群中,大约有4.25%的人是色盲。绝大多数的色盲病例是遗传性的。色盲症是由X染色体上的基因缺陷引起的。由于男性只有一条X染色体,而女性有两条X染色体,因此男性更易受到X染色体缺陷的不良影响,从而患有色盲的概率约为女性的16倍。因此,虽然整个人群的色盲率为4.25%,但女性是0.5%,而男性则是8%。在下面的计算中,我们将这样简化假设:人口中男女的比例正好是

。用条件概率来表示这些事实即:

给定了这些信息,如果从人群中随机选一个人,请问他是男性色盲的概率是多少?在第3章中,我们学习了如何使用乘法法则将概率与AND结合起来。根据乘法法则,上述问题的预期答案是:

但当使用条件概率的乘法法则时,这就出问题了。如果我们试着找出女性色盲的概率,这个问题就会更清楚:

这不可能是对的,因为这两个概率计算出来是一样的!我们知道,虽然男性或女性出现的概率是一样的,但如果是女性,那么她患有色盲症的概率要比男性低得多。我们的公式本应该可以解释这样一个事实:随机挑选一个人,他(她)患有色盲症的概率取决于性别。第3章给出的乘法法则只有在事件独立的情况下才有效,而这里的性别和患有色盲症并不是独立的事件。

因此,男性色盲出现的真正概率是男性出现的概率乘以他是色盲的概率。在数学上,可以将它写成:

对这个答案进行概括后,可以将乘法法则重写为:

这个公式也适用于独立事件的概率,因为对独立事件来说:

想一想掷硬币出现正面和掷骰子出现6点的情况,这个等式就更直观了,因为掷骰子与掷硬币这两个事件相互独立,那么等于

,也等于

还可以重新定义加法法则来解释这个事实:

现在就可以利用在本书第一部分学到的概率逻辑规则来处理条件概率了。

关于条件概率和统计的依赖性,需要注意的一个重要问题是,在现实中要知道两个事件的关系往往是很困难的。例如,我们可能想知道某人拥有一辆皮卡且上下班时间超过一小时的概率。虽然我们可以提出很多理由表明其中一个事件可能依赖另外一个事件(比如,很多拥有皮卡的人住在郊区,很少通勤),但我们可能找不到数据来证明这一点。假设两个事件独立(即使它们很可能不是)是统计学中非常常见的做法。但是,就像前面计算男性色盲概率的例子一样,这种假设有时会产生非常严重的错误。虽然独立性假设通常是出于实际需要,但我们不能忘记依赖性的影响有多大。

逆概率和贝叶斯定理

关于条件概率,我们能做的最神奇的一件事情就是,将条件颠倒过来计算其所依赖事件的概率。也就是说,我们可以通过

计算出
 。举个例子,假设你正在给一家色盲矫正眼镜公司的客服代表发送电子邮件。这款眼镜有点贵,于是你在邮件中说自己担心眼镜可能不起作用。客服代表回复说:“我也是色盲,我自己也有一副,效果非常好!”

我们想知道这位客服代表是男性的概率,但是除了工号之外,这位客服代表没有提供任何其他信息。那么,怎样才能算出这位客服代表是男性的概率呢?

我们知道 P(色盲 | 男性)=0.08,P(色盲 | 女性)=0.05,但P(男性 | 色盲) 该如何确定呢?直觉上,我们认为客服代表是男性的可能性更大,但这需要量化才能确定。

庆幸的是,我们拥有解决这个问题所需的全部信息,而且知道要解决的问题是,在已知色盲的情况下问此客服代表是男性的概率:

贝叶斯统计的核心是数据,除了现有的概率,现在我们只有一条数据:客服代表是色盲。下一步就需要求出总人口中色盲的比例,然后,我们就可以搞清楚色盲人群中有多少是男性了。

为了帮助分析,我们增加一个新的变量N,用它代表总人口的数量。如前所述,首先需要计算出色盲人群的总数。我们知道出现色盲的概率P(色盲),因此可以写出下面这部分等式:

下一步需要计算出人群中男性色盲的人数。这很简单,因为已经知道和,而且乘法法则已经更新。直接用概率乘以总人口就可得出男性色盲的人数:

因此,在已知客服代表患有色盲症的情况下,他是男性的概率是:

等式右边的分子和分母中都有总人口数 ,可以消除,因此有:

现在我们可以直接求解这个问题了,因为余下的数据都有:

根据计算,我们知道这位客服代表是男性的概率高达94.1%!

3 贝叶斯定理

在前面的公式中,实际上并没有任何专门针对色盲示例的内容,所以我们可以将它推广到任何给定事件  和事件  的概率上。这样做,我们就得到了本书最基本的公式——贝叶斯定理:

为了理解贝叶斯定理如此重要的原因,我们来看看这个问题的一般形式。信念描述了我们所知道的世界,当观察到某件事情时,它的条件概率就代表了在我们相信的前提下自己所见事情的可能性,即:

例如,你相信气候正在变化,因此你假设所居住的地区10年内会发生更多的干旱。你的信念是气候变化正在发生,你的观察结果是所在地区的干旱次数。假设过去10年里发生过5次干旱。如果在过去的10年里确实发生了气候变化,要确定你在过去10年中刚好观察到5次干旱的概率有多大,这可能会很困难。一种方法是咨询气候专家,询问他们在气候的确发生变化的假设下出现干旱的概率。

在这一点上,你所要做的只是去问一下:“如果我相信气候变化是真的,那么观察到10年发生5次干旱的概率有多大?”但你想要的是,有某种方法来量化自己有多相信气候真的在发生变化。贝叶斯定理允许你将咨询气候学家的概率P(观察 | 信念)反转,求解出在给定观察的情况下信念的概率,即:

在这个例子中,贝叶斯定理允许你将10年内观察到的5次干旱转化为一个陈述,表达在观察到这些干旱之后你对气候变化的信念有多强。你还需要的其他信息是,10年内发生5次干旱的一般概率(可以用历史数据估计)和你相信气候变化的初始概率。虽然大多数人相信气候变化的初始概率会有所不同,但贝叶斯定理可以让你准确量化数据对信念的改变程度。

如果气候专家说假设气候变化正在发生,那么10年内发生5次干旱是非常有可能的。大多数人可能会因此改变之前的信念,并且会更支持气候变化这一观点,不管他们以前是否持怀疑态度。

然而,如果气候专家告诉你说,即使气候变化正在发生,10年内发生5次干旱的可能性也非常小,那么你先前对气候变化的信念会因为与数据相左而略有减弱。这里的关键是,贝叶斯定理允许数据改变我们对信念的相信程度。

贝叶斯定理允许我们将对世界的信念与数据结合起来,然后根据我们观察到的情况把这种结合转化为对信念强度的估计。很多时候,信念只是我们对一个想法的初始确定程度,也就是贝叶斯定理中的P(A)。我们经常会争论一些话题,比如增加考试能否提高学生的成绩,或者公共医疗能否降低整体医疗成本。但是我们很少思考数据如何改变了我们以及与我们辩论的人的想法。贝叶斯定理允许我们分析关于这些信念的数据,并精确地量化这些数据到底能够改变我们的信念多少。

编辑:黄继彦


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
让概率来帮我们预测未来——数学与水晶球(上)
机器学习入门之--条件概率和贝叶斯定理
(三)从零开始学人工智能—数学基础:概率论与数理统计
贝叶斯主义者
根据结果倒推原因——贝叶斯定理
从样本推论总体的第一人:贝叶斯
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服