打开数据分析的大门,从感性走向理性。
“概率统计”正确理解,才能正确应用!
本专栏从最通俗易懂的角度,用最易于理解的方法,真正内化吸收概率统计的核心思想与算法,帮助您在工作生活中正确应用概率统计知识。
美国海军每次征兵都会打出号召性的广告,尽其所能地宣传,让最优秀的年青人加入军队,还要想办法不让父母们担心孩子的安危。
美军征兵海报
这不,有一年广告是这么说的:
权威统计数据表明,纽约市民的每年的死亡率为1.6%,而美国海军每年的死亡率仅有0.9%!所以,美国海军是比纽约市更安全的地方!
普通人一看,有这么3点反应:
恭喜,中计了!
这个诡计的要害其实一语即可道破:
纽约市民中包括老弱病残,而美国海军全是挑选出来的精壮青年,后者正常的死亡率应该连0.2%都不到,而到了海军要多牺牲出0.7%,还说不危险?!
军人上战场都是冒着生命危险
所以,想用概率的比较来说明问题,就必须很清晰概率的计算前提。
要想通过比较概率来说明问题,前提是:
分析事件的关联性与独立性。
具体地说,一个人是美国海军这个事件,与一个人是普通市民的这个事件,二者是有隐含逻辑关联的,因为一个人100%是普通市民,但也许只有1%可以选中成为海军士兵。
精要总结:
两个概率的统计群体,拥有逻辑上的关联性,但该关联性没有体现在概率计算中,因此两个概率值是无法做比较的。
如果注意观察,在生活甚至工作中,这样的“伪对比”其实非常之多,稍不注意就会落入概率陷阱之中。
甚至可以说,我们日常见到的广告宣传中,凡是出现概率或比率的,都需要擦亮双眼仔细辨别。
概率对比的正确操作,是使用“条件概率”。
直接上例子:
统计发现,人类患肺癌的概率为0.1%,而吸烟者患肺癌的概率为0.4%,如何知道不吸烟的人患肺癌的概率是多少呢?(人群中吸烟者的比率为20%)
第一反应,0.4>0.1,不吸烟肯定不那么容易患肺癌,那么差多少呢?
归纳一下已条件:
P(肺癌)=0.1% 即P(不肺癌)=99.9%
P(吸烟)=20% 即P(不吸烟)=80%
P(肺癌|吸烟) = 0.4%
最后那一行的意思表示“条件概率”:
P(肺癌|吸烟) 表示 在吸烟的条件下 得肺癌的概率。
竖线后面就表示这个概率计算的总体,所以说,为什么要用一竖来表示条件概率,因为这一竖“|”其实就是除号“/”啊!
那么,咱们要求的,不吸烟的人患肺癌的概率 可以表示为:
P(肺癌|不吸烟)
这里采用“分解法”,对于全体人类而言,患肺癌的人分两类:
所以:
P(肺癌)
= P(肺癌 且 吸烟) +P(肺癌 且 不吸烟)
= P(肺癌|吸烟) x P(吸烟)+P(肺癌|不吸烟) x P(不吸烟)
这种把一个事件(肺癌)用另一个事件(吸烟)给分割开的公式,叫做
全概率分解。
而式中,只有一个未知量,得到 P(肺癌|不吸烟)=0.025%。
戒烟吧,还您一个健康的肺
可见:
全概率分解展现的是两个事件的关联性。
如果对上面式子中的乘号有疑问,可以再看看下面的图形解释。
假设有事件A 和 B :
显然,事件A 与 事件B有交集,也就是说他们可能同时发生,(比如一个人既吸烟,同时也患了肺癌),那么AB同时发生的概率可以表示为:
或:
都是可以的。
所以显然:
上面这三个式子叫做贝叶斯原理,这个公式非常擅于解决这样一类问题:
假如已经发生了一个事件,如事件B,那么,在此基础上,事件A会发生的概率是多少呢?
其实,就是求 P(A|B),由上式,显然:
这个贝叶斯原理可厉害了,是人工智能算法中的一项重要技术,其实它在生活中的方方面面都有应用,理解贝叶斯原理对于大脑进行逻辑判断非常有帮助。
上个实例吧。
你怀疑自己得了一种严重的疾病,虽然这种疾病在人群中比较少见(概率为1%),但是你还是到医院来检查一下,检查结果竟然是阳性(阳性意思就是判定有病),大夫说他们医院进口的检验机器正确率高达98%!
(要假设机器的检验正确或错误,与检验样品无关,是机器本身的功能性)
你更绝望了!
看起来好像必然会生病了,98%的正诊率怕是跑不掉了。
是直接做手术?还是再做一次昂贵的检查?
其实,学过上面的知识,你会更理智地更准确地判断问题。
首先,明确“阳性”与“有病”是两个概念,“阳性”是医院的诊断,而医院是完全有可能误诊的,所以说有4种情况:
目前的情况是,事件“阳性”已经发生了,所以我们想求的是:
有事件发生了,所以根据贝叶斯公式得到:
P(有病|阳性) = P(有病 且 阳性) / P(阳性)
根据贝叶斯定理——
根据全概率分解——
阳性包括 有病查出阳性 和 没病查出阳性(误诊了)
P(阳性) = P(正诊 且 有病) +P(误诊 且 没病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296
最后计算结果为
也就是说,虽然检查出了阳性,但你患病的概率其实中只有1/3,当然要再检查一次,不要着急做手术!
那么,这是什么道理呢?
原因就在于,这种病比较罕见,只有1%,这就造成了虽然误诊率小,但是不患病却误诊成阳性的人数比例就显得多,事实上是患病而正诊成阳性的2倍之多。
当然,这个例子在实际情况中不太成立,主要因为诊断的正误不是随机的,诊断主要还是根据医生的经验,而且检查往往也不是一项指标而是许多项指标。
贝叶斯定理是基于两个事件的关联性,是在B事件发生后,对A事件发生概率的重新评估与预测。
P(A) —— '预估概率',指在B发生前,对A事件发生概率的初步判断,所以也叫“先验概率”。
P(A|B) —— '修正概率',指B事件发生后,对A事件概率的重新评估与预测,所以也叫“后验概率”。
P(B|A)/P(B)这一部分看起来都是“不对称的”,所以想要彻底理解,有一个最关键的变形步骤,好像没见有资料这么提,却是理解贝叶斯的关键所在——
上文提到:
那么,就把 P(B|A) = P(A且B)/P(A)代入叶贝斯公式,得到:
更易理解的叶贝斯公式
下面精彩了,咱们把
这一部分,称为:
关联度因子(Likelihood ratio)
所以贝叶斯原理是在教你:如何根据出现的新信息修正概率预测呢!
修正概率 = 预估概率 x 关联度因子
这个关联度因子终于变得对称了,它的深层含义就昭然若揭了
联系客服