打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
理解概率统计核心理念:事件的条件与关联——深解贝叶斯原理

打开数据分析的大门,从感性走向理性。

“概率统计”正确理解,才能正确应用

本专栏从最通俗易懂的角度,用最易于理解的方法,真正内化吸收概率统计的核心思想与算法,帮助您在工作生活中正确应用概率统计知识。

征兵的故事

美国海军每次征兵都会打出号召性的广告,尽其所能地宣传,让最优秀的年青人加入军队,还要想办法不让父母们担心孩子的安危。

美军征兵海报

这不,有一年广告是这么说的:

权威统计数据表明,纽约市民的每年的死亡率为1.6%,而美国海军每年的死亡率仅有0.9%!所以,美国海军是比纽约市更安全的地方

普通人一看,有这么3点反应:

  1. 不能吧,不合常理啊?
  2. 权威统计,数据应该是真的。
  3. 也许是因为海军确实安全吧!

恭喜,中计了

这个诡计的要害其实一语即可道破:

纽约市民中包括老弱病残,而美国海军全是挑选出来的精壮青年后者正常的死亡率应该连0.2%都不到,而到了海军要多牺牲出0.7%,还说不危险?!

军人上战场都是冒着生命危险

所以,想用概率的比较来说明问题,就必须很清晰概率的计算前提

要想通过比较概率来说明问题,前提是:

分析事件的关联性与独立性

具体地说,一个人是美国海军这个事件,与一个人是普通市民的这个事件,二者是有隐含逻辑关联的,因为一个人100%是普通市民,但也许只有1%可以选中成为海军士兵。

精要总结:

两个概率的统计群体,拥有逻辑上的关联性,但该关联性没有体现在概率计算中,因此两个概率值是无法做比较的。

如果注意观察,在生活甚至工作中,这样的“伪对比”其实非常之多,稍不注意就会落入概率陷阱之中

甚至可以说,我们日常见到的广告宣传中,凡是出现概率或比率的,都需要擦亮双眼仔细辨别。

条件概率

概率对比的正确操作,是使用“条件概率”

直接上例子:

统计发现,人类患肺癌的概率为0.1%,而吸烟者患肺癌的概率为0.4%,如何知道不吸烟的人患肺癌的概率是多少呢?(人群中吸烟者的比率为20%)

第一反应,0.4>0.1,不吸烟肯定不那么容易患肺癌,那么差多少呢?

归纳一下已条件:

P(肺癌)=0.1% 即P(不肺癌)=99.9%

P(吸烟)=20% 即P(不吸烟)=80%

P(肺癌|吸烟) = 0.4%

最后那一行的意思表示“条件概率”

P(肺癌|吸烟) 表示 在吸烟的条件下 得肺癌的概率。

竖线后面就表示这个概率计算的总体,所以说,为什么要用一竖来表示条件概率,因为这一竖“|”其实就是除号“/”啊!

那么,咱们要求的,不吸烟的人患肺癌的概率 可以表示为:

P(肺癌|不吸烟)

这里采用“分解法”,对于全体人类而言,患肺癌的人分两类:

  • 吸烟 且 患肺癌
  • 不吸烟 且 患肺癌

所以:

P(肺癌)

= P(肺癌 且 吸烟) +P(肺癌 且 不吸烟)

= P(肺癌|吸烟) x P(吸烟)+P(肺癌|不吸烟) x P(不吸烟)

这种把一个事件(肺癌)用另一个事件(吸烟)给分割开的公式,叫做

全概率分解

而式中,只有一个未知量,得到 P(肺癌|不吸烟)=0.025%。

戒烟吧,还您一个健康的肺

可见:

  • 不吸烟患病的概率要远低于吸烟患病的概率;
  • 可以得到明确判断吸烟与肺癌的关系。
  • 概率对比要确定前提条件,即使用条件概率。

全概率分解展现的是两个事件的关联性。

贝叶斯公式

如果对上面式子中的乘号有疑问,可以再看看下面的图形解释。

假设有事件A 和 B :

显然,事件A 与 事件B有交集,也就是说他们可能同时发生,(比如一个人既吸烟,同时也患了肺癌),那么AB同时发生的概率可以表示为:

或:

都是可以的。

所以显然:

上面这三个式子叫做贝叶斯原理,这个公式非常擅于解决这样一类问题:

假如已经发生了一个事件,如事件B,那么,在此基础上,事件A会发生的概率是多少呢

其实,就是求 P(A|B),由上式,显然:

这个贝叶斯原理可厉害了,是人工智能算法中的一项重要技术,其实它在生活中的方方面面都有应用,理解贝叶斯原理对于大脑进行逻辑判断非常有帮助。

上个实例吧。

检查结果为阳性!

你怀疑自己得了一种严重的疾病,虽然这种疾病在人群中比较少见(概率为1%),但是你还是到医院来检查一下,检查结果竟然是阳性(阳性意思就是判定有病),大夫说他们医院进口的检验机器正确率高达98%!

(要假设机器的检验正确或错误,与检验样品无关,是机器本身的功能性)

你更绝望了!

看起来好像必然会生病了,98%的正诊率怕是跑不掉了。

是直接做手术?还是再做一次昂贵的检查?

其实,学过上面的知识,你会更理智地更准确地判断问题

首先,明确“阳性”与“有病”是两个概念,“阳性”是医院的诊断,而医院是完全有可能误诊的,所以说有4种情况:

  • 阳性 且 有病
  • 阳性 且 没病
  • 阴性 且 有病
  • 阴性 且 没病

目前的情况是,事件“阳性”已经发生了,所以我们想求的是:

P(有病|阳性)

有事件发生了,所以根据贝叶斯公式得到:

P(有病|阳性) = P(有病 且 阳性) / P(阳性)

根据贝叶斯定理——

P(有病 且 阳性) = P(有病 且 正诊) = P(有病) x P(正诊) = 0.01 x 0.98 = 0.0098

根据全概率分解——

阳性包括 有病查出阳性 和 没病查出阳性(误诊了)

P(阳性) = P(正诊 且 有病) +P(误诊 且 没病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296

最后计算结果为

P(有病|阳性) = 33%

也就是说,虽然检查出了阳性,但你患病的概率其实中只有1/3,当然要再检查一次,不要着急做手术!

那么,这是什么道理呢?

原因就在于,这种病比较罕见,只有1%,这就造成了虽然误诊率小,但是不患病却误诊成阳性的人数比例就显得多,事实上是患病而正诊成阳性的2倍之多

当然,这个例子在实际情况中不太成立,主要因为诊断的正误不是随机的,诊断主要还是根据医生的经验,而且检查往往也不是一项指标而是许多项指标。

理解贝叶斯定理——相关度因子

贝叶斯定理是基于两个事件的关联性是在B事件发生后,对A事件发生概率的重新评估与预测

P(A) —— '预估概率',指在B发生前,对A事件发生概率的初步判断,所以也叫“先验概率”。

P(A|B) —— '修正概率',指B事件发生后,对A事件概率的重新评估与预测,所以也叫“后验概率”。

P(B|A)/P(B)这一部分看起来都是“不对称的”,所以想要彻底理解,有一个最关键的变形步骤,好像没见有资料这么提,却是理解贝叶斯的关键所在——

上文提到:

那么,就把 P(B|A) = P(A且B)/P(A)代入叶贝斯公式,得到:

更易理解的叶贝斯公式

下面精彩了,咱们把

这一部分,称为:

关联度因子(Likelihood ratio)

所以贝叶斯原理是在教你:如何根据出现的新信息修正概率预测呢!

修正概率 = 预估概率 x 关联度因子

详解关联度因子

这个关联度因子终于变得对称了,它的深层含义就昭然若揭了

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
概率论|贝叶斯公式及其推论的理解和运用
条件概率和贝叶斯公式-图解概率 03
全概率公式与贝叶斯公式的运用
让概率来帮我们预测未来——数学与水晶球(上)
贝叶斯学习法--我们几乎每天都在使用的数学工具
主观概率
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服