打开数据分析的大门，从感性走向理性。
“概率统计”正确理解，才能正确应用！
本专栏从最通俗易懂的角度，用最易于理解的方法，真正内化吸收概率统计的核心思想与算法，帮助您在工作生活中正确应用概率统计知识。

征兵的故事

美国海军每次征兵都会打出号召性的广告，尽其所能地宣传，让最优秀的年青人加入军队，还要想办法不让父母们担心孩子的安危。

美军征兵海报

这不，有一年广告是这么说的：

权威统计数据表明，纽约市民的每年的死亡率为1.6%，而美国海军每年的死亡率仅有0.9%！所以，美国海军是比纽约市更安全的地方！

普通人一看，有这么3点反应：

不能吧，不合常理啊？
权威统计，数据应该是真的。
也许是因为海军确实安全吧！

恭喜，中计了！

这个诡计的要害其实一语即可道破：

纽约市民中包括老弱病残，而美国海军全是挑选出来的精壮青年，后者正常的死亡率应该连0.2%都不到，而到了海军要多牺牲出0.7%，还说不危险？！

军人上战场都是冒着生命危险

所以，想用概率的比较来说明问题，就必须很清晰概率的计算前提。

要想通过比较概率来说明问题，前提是：

分析事件的关联性与独立性。

具体地说，一个人是美国海军这个事件，与一个人是普通市民的这个事件，二者是有隐含逻辑关联的，因为一个人100%是普通市民，但也许只有1%可以选中成为海军士兵。

精要总结：

两个概率的统计群体，拥有逻辑上的关联性，但该关联性没有体现在概率计算中，因此两个概率值是无法做比较的。

如果注意观察，在生活甚至工作中，这样的“伪对比”其实非常之多，稍不注意就会落入概率陷阱之中。

甚至可以说，我们日常见到的广告宣传中，凡是出现概率或比率的，都需要擦亮双眼仔细辨别。

条件概率

概率对比的正确操作，是使用“条件概率”。

直接上例子：

统计发现，人类患肺癌的概率为0.1%，而吸烟者患肺癌的概率为0.4%，如何知道不吸烟的人患肺癌的概率是多少呢？（人群中吸烟者的比率为20%）

第一反应，0.4>0.1，不吸烟肯定不那么容易患肺癌，那么差多少呢？

归纳一下已条件：

P(肺癌)=0.1% 即P(不肺癌)=99.9%
P(吸烟)=20% 即P(不吸烟)=80%
P(肺癌|吸烟) = 0.4%

最后那一行的意思表示“条件概率”：

P(肺癌|吸烟) 表示在吸烟的条件下得肺癌的概率。

竖线后面就表示这个概率计算的总体，所以说，为什么要用一竖来表示条件概率，因为这一竖“|”其实就是除号“/”啊！

那么，咱们要求的，不吸烟的人患肺癌的概率可以表示为：

P(肺癌|不吸烟)

这里采用“分解法”，对于全体人类而言，患肺癌的人分两类：

吸烟且患肺癌
不吸烟且患肺癌

所以：

P(肺癌)

= P(肺癌且吸烟) +P(肺癌且不吸烟)

= P(肺癌|吸烟) x P(吸烟)+P(肺癌|不吸烟) x P(不吸烟)

这种把一个事件（肺癌）用另一个事件（吸烟）给分割开的公式，叫做

全概率分解。

而式中，只有一个未知量，得到 P(肺癌|不吸烟)=0.025%。

戒烟吧，还您一个健康的肺

可见：

不吸烟患病的概率要远低于吸烟患病的概率；
可以得到明确判断吸烟与肺癌的关系。
概率对比要确定前提条件，即使用条件概率。

全概率分解展现的是两个事件的关联性。

贝叶斯公式

如果对上面式子中的乘号有疑问，可以再看看下面的图形解释。

假设有事件A 和 B ：

显然，事件A 与事件B有交集，也就是说他们可能同时发生，（比如一个人既吸烟，同时也患了肺癌），那么AB同时发生的概率可以表示为：

或：

都是可以的。

所以显然：

上面这三个式子叫做贝叶斯原理，这个公式非常擅于解决这样一类问题：

假如已经发生了一个事件，如事件B，那么，在此基础上，事件A会发生的概率是多少呢？

其实，就是求 P(A|B)，由上式，显然：

这个贝叶斯原理可厉害了，是人工智能算法中的一项重要技术，其实它在生活中的方方面面都有应用，理解贝叶斯原理对于大脑进行逻辑判断非常有帮助。

上个实例吧。

检查结果为阳性！

你怀疑自己得了一种严重的疾病，虽然这种疾病在人群中比较少见（概率为1%），但是你还是到医院来检查一下，检查结果竟然是阳性（阳性意思就是判定有病），大夫说他们医院进口的检验机器正确率高达98%！

（要假设机器的检验正确或错误，与检验样品无关，是机器本身的功能性）

你更绝望了！

看起来好像必然会生病了，98%的正诊率怕是跑不掉了。

是直接做手术？还是再做一次昂贵的检查？

其实，学过上面的知识，你会更理智地更准确地判断问题。

首先，明确“阳性”与“有病”是两个概念，“阳性”是医院的诊断，而医院是完全有可能误诊的，所以说有4种情况：

阳性且有病
阳性且没病
阴性且有病
阴性且没病

目前的情况是，事件“阳性”已经发生了，所以我们想求的是：

P(有病|阳性)

有事件发生了，所以根据贝叶斯公式得到：

P(有病|阳性) = P(有病 且 阳性) / P(阳性)

根据贝叶斯定理——

P(有病且阳性) = P(有病且正诊) = P(有病) x P(正诊) = 0.01 x 0.98 = 0.0098

根据全概率分解——

阳性包括有病查出阳性和没病查出阳性（误诊了）

P(阳性) = P(正诊 且 有病) +P(误诊 且 没病) = 0.98 x 0.01 + 0.02 x 0.99= 0.0296

最后计算结果为

P(有病|阳性) = 33%

也就是说，虽然检查出了阳性，但你患病的概率其实中只有1/3，当然要再检查一次，不要着急做手术！

那么，这是什么道理呢？

原因就在于，这种病比较罕见，只有1%，这就造成了虽然误诊率小，但是不患病却误诊成阳性的人数比例就显得多，事实上是患病而正诊成阳性的2倍之多。

当然，这个例子在实际情况中不太成立，主要因为诊断的正误不是随机的，诊断主要还是根据医生的经验，而且检查往往也不是一项指标而是许多项指标。

理解贝叶斯定理——相关度因子

贝叶斯定理是基于两个事件的关联性，是在B事件发生后，对A事件发生概率的重新评估与预测。

P(A) —— '预估概率'，指在B发生前，对A事件发生概率的初步判断，所以也叫“先验概率”。

P(A|B) —— '修正概率'，指B事件发生后，对A事件概率的重新评估与预测，所以也叫“后验概率”。

P(B|A)/P(B)这一部分看起来都是“不对称的”，所以想要彻底理解，有一个最关键的变形步骤，好像没见有资料这么提，却是理解贝叶斯的关键所在——

上文提到：

那么，就把 P(B|A) = P(A且B)/P(A)代入叶贝斯公式，得到：

更易理解的叶贝斯公式

下面精彩了，咱们把

这一部分，称为：

关联度因子（Likelihood ratio）

所以贝叶斯原理是在教你：如何根据出现的新信息修正概率预测呢！

修正概率 = 预估概率 x 关联度因子

详解关联度因子

这个关联度因子终于变得对称了，它的深层含义就昭然若揭了

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。