打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
猫说数学 1 | 不死的理论:贝叶斯定理
userphoto

2023.03.10 湖北

关注

今天要说的这个定理,是被誉为“永远不会死掉的理论”的贝叶斯定理。它由英国数学家贝叶斯(Thomas Bayes 1702-1761)所发展。这个定理体现为下面这个著名、简洁的贝叶斯公式:

这个公式通常用来解决条件概率问题,也就是求出在已知特定条件下,另外一件事情会发生的概率。我们用一个例子介绍一下公式里这些符号的意义:
首先 A 和 B 分别代表两个不同的事件,一个代表我们期望知道其发生概率的某个事件(例如上班迟到),一个代表已知的条件(例如早上睡过头)。
把代表这些事件的字母用大写的P和括号包起来,就表示这些事件的发生概率,下面假设我们关注的是在30天里的概率。
P(A|B) 表示在早上睡过头的情况下,上班迟到的概率,这个概率是我们要求解的,数学上等于(30天里早上睡过头且上班迟到的天数 / 30天里早上睡过头的总天数)。
P(B|A) 与P(A|B)正相反,表示上班迟到了,多大概率是由于早上睡过头造成的,数学上等于(30天里早上睡过头且上班迟到的天数 / 30天里上班迟到的总天数)。
P(A) 代表上班迟到的总概率,数学上等于(30天里上班迟到的总天数 / 30天)。
P(B) 代表早上睡过头的总概率,数学上等于(30天里早上睡过头的总天数 / 30天)。
贝叶斯公式在许多领域都得到了广泛的应用,在不同的具体应用中,只是A和B代表的实际意义不同而已,下面我们来看几个在流行病学、金融投资和人工智能领域的例子。

在流行病学领域的应用




一种新的流感病毒开始流行,感染概率为千分之一(1‰),人们研究出了一种检测方法,准确率为99%,如果一个人检测出为阳性,这个人感染上新流感的概率是多少?

先不看下面的分析,你估算的答案是多少?1‰?99%?还是它们两个相乘?
可能很多人会说是99%,与测试准确率一致,其实以上都不是,答案是9%左右。
你肯定好奇这个9%怎么得出来的?我们分析一下这个问题,首先根据问的是如果检测出为阳性,感染上新流感的概率是多少,我们可以区分出“检测出是阳性”这件事是条件,记为B,那么“感染上新流感”这件事就是A,此外:
P(A)为总人群里感染上新流感的概率,已经给出来了是1‰。
P(B|A)为感染上新流感的人群里,被检测出是阳性的概率,即99%。
P(B)为总人群里被检测出阳性的概率,你可能会说就是99%啦,其实不对,注意它和检测方法准确率是有差别的, 在于它们所针对的群体对象是不一样的(即样本空间不同)。
检测方法准确率是基于全体检测人群而言的,也就是所有检测的人里面,有多少人检测出的阳性结果是正确的,不是误判。
而总人群里被检测出阳性的概率,在流感有个总体感染概率的情况下,针对的群体要分为感染上流感的人群,和未感染上流感的人群来分别讨论,为方便说明,我们假设全体检测人数为1000人。
感染上流感的人群里检测出阳性,检测结果就是真实的,非误判,其人数为1000×1‰×99%=1×99%
未感染上流感的人群里检测出阳性,实际上是被误判为阳性,其人数为1000×(1-1‰)×(1-99%)=999×1%
于是就有P(B)=(1×99%+999×1%) / 1000
好了,最后把所有对应的值都填到贝叶斯公式里,就可以计算出最终结果为这个人有 9%左右的概率是真阳性(这里四舍五入取了整数百分比)。
这个例子里最有挑战性,也是最有意思的部分就是得出这个P(B)的计算方法了,因为存在误判可能性(虽然只有看上去不高的1%),对于没有感染流感的999个人来说,平均会有9~10人是假阳性,加上1个真阳性,每1000个人里会有10~11人呈现阳性结果,简言之,由于感染率低(1‰),导致假阳性的人数远远多于真阳性,这也是医生们不愿意只依靠单一检测做出诊断的原因。
这么多数字算来算去,到这里可能有人已经晕了,别担心,下面再说的例子就不会涉及具体的数字计算了,更多的是思路上的启发。

在金融投资领域的应用




我们再看一个在金融投资上的例子,我们对一个市场(比如股票市场)做投资,都希望能够获得成功,没人愿意赔钱,但要怎么尽可能避免失败呢,贝叶斯定理也能帮上忙。

假设A代表投资某个市场获得成功这一事件,P(A)就为该市场投资成功的整体概率,即平均收益,例如根据历史数据分析得出该市场的平均收益为4赚3平3赔,则P(A)为40%,通常P(A)可视为常数。
但如果要追求更大的投资成功率,就不能只看市场的平均成功率。如果市场在某个特定因素B出现时,投资成功率会超过平均成功率,那就要在这个因素B出现时去做投资,此时投资成功率即为P(A|B)。
进一步,如果因素B有多个,那么每个因素都有一个对应的P(A|B),我们总不能每个因素出现时都去试一把,我们的资金和风险承受能力有限,应该要挑出P(A|B)最大时对应的因素,问题来了,谁最大呢?
根据贝叶斯公式:P(A|B)=P(B|A)·P(A) / P(B),要使P(A|B)尽可能大,就要P(B|A) 尽可能大,P(B)尽可能小,这里面的关键就是要弄清楚“P(B|A) 尽可能大,P(B)尽可能小”分别意味着什么,看下面的分析:
P(B)尽可能小:意味着因素B发生的概率要小,在长期的投资市场中,因素B应该很少见。

P(B|A) 尽可能大:意味着在历史成功的投资案例中,因素B却经常出现(也就是投资成功时,因素B发生的概率大)。

因此,我们对历史数据进行挖掘时,就要这样分析:先找出历史上投资成功的那些时刻或案例,然后找出这些成功的案例有什么共同点,或者说投资者在进行这些投资时,市场上出现了什么共同因素或现象。最后,去掉那些在长期投资过程中经常出现的因素,保留那些在长期投资过程中很少出现的因素,这些因素发生时,投资获得成功的概率最大。

我们看到,贝叶斯定理不但能帮我们计算具体的概率,还能在重要问题上给我们带来全新的视角。

在人工智能领域的应用




我们在邮件处理软件上都使用过按关键词过滤垃圾邮件的功能,不那么先进的软件,可能就是按你设置的关键词,直接将包含它们的邮件“暴力地”标识为垃圾邮件。而更智能一些的软件,会在贝叶斯定理的基础上,通过机器学习来识别垃圾邮件,下面我们就来看一下具体是如何运用的。

假如,现在我们已有10万封邮件作为机器学习的样本,每个邮件都已经被标记好了是否为垃圾邮件,这里不用我们预先设置任何用于过滤的关键词,而是让软件自己“学习”哪些词要作为关键词,那么软件是如何学习的呢?

首先,通过样本数据很容易计算出:

P(A)=垃圾邮件的概率,即垃圾邮件数量 / 所有的邮件数量。

P(B)=邮件中出现词M(假设M是软件尝试去学习的某一个词)的概率,即出现词M的邮件数量 / 所有的邮件数量。

P(B|A)=垃圾邮件中出现词M概率,即垃圾邮件中含有词M的邮件数量 / 所有垃圾邮件数量。

那么,根据贝叶斯公式,出现词M的邮件是垃圾邮件的概率P(A|B)=P(B|A)·P(A) / P(B),对垃圾邮件学习的过程就是计算P(A|B)的过程

一般会有多个词或多个词的组合尝试,直到找出那些概率大于预设概率的词或词的组合,后续再有新邮件包含它们时,软件就会将邮件判断为垃圾邮件。

再次说明,这些词是软件根据样本数据自动逐个找到的,而不是人通过任何方式“告诉”它的。

当然,实际中有可能会出现误判,含有词M不一定是垃圾邮件,垃圾邮件也不一定含有词M。通常再结合上机器学习的其他算法,或是使用者的个别修正,机器学习基本上可以做到很高的识别率。

总结




通过上面三个贝叶斯定理的应用,我们可以初步了解到这个定理的强大,不愧被称为“永远不会死掉的理论”。这个世界是不确定的,到处都存在着概率,就像《人工智能全传》中所说的:

贝叶斯定理的重要性就在于为我们提供了处理不完美数据的正确方法:我们既不丢弃数据,也不全盘相信它是正确的。我们利用它来更新我们的信念库,通过概率来确定信念库的正确性。

最后,因为我们知道P(A|B)就是在B发生的情况下A发生的可能性,如果你正处于恋爱中,请一定要记住

贝叶斯浪漫定理
:TA喜欢你的前提是你喜欢TA,只要你对TA好,TA也一定会对你好。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
生活中的贝叶斯定理
探源现代预测之术 ——贝叶斯定理
让概率来帮我们预测未来——数学与水晶球(上)
贝叶斯主义者
上帝手中的骰子——无所不能的贝叶斯(下篇)
什么是贝叶斯定理?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服