×
探源现代预测之术
——贝叶斯定理
“人生中最重要的问题,在绝大多数情况下,真的就只是概率问题。”
——皮埃尔-西蒙·拉普拉斯(1749-1827)
你是否曾经想过,为什么有的人总是赌运气,而有的人却能准确地预测未来?
答案就在于概率。
这时候,我们不得不提到一个神奇的定理——贝叶斯定理。从物理学到癌症研究,从生态学到心理学,贝叶斯定理几乎像“热力学第二定律”一样放之宇宙皆准了,几乎所有学科都可以用这个公式做出精准的预测和决策。它是人工智能的“祖师爷”,是商业分析师必备定理!江湖传闻“万物皆可贝叶斯”!下面就让我们一起揭开“现代预测之术——贝叶斯定理”的神秘面纱吧!
一
托马斯·贝叶斯
01
18世纪英国神学家、数学家、数理统计学家和哲学家
02
1702年出生于英国伦敦,做过神甫,1742年成为英国皇家学会会员
03
他是概率论理论创始人,贝叶斯统计的创立者,“归纳地”运用数学概率,“从特殊推论一般、从样本推论全体”的第一人
贝叶斯定理是由英国数学家 Thomas Bayes 在 1700 年代末或 1800 年代初提出的。然而,他的这个理论一直未被广泛关注和应用,直到他的朋友,英国数学家 Richard Price 于1763年发表了一篇有关概率与统计的论文,其中提到了贝叶斯定理,成为第一篇公开发表有关贝叶斯定理的论文。此后,1800年 Pierre-Simon Laplace 独立发现并发表了一篇关于贝叶斯定理的论文,是第一篇详细解释和应用贝叶斯定理的作品。
二
公式推导
条件概率
条件概率表示为:P(B|A),读作“在A发生的条件下B的概率”.
计算公式为:
乘法原理
在实际应用中,乘法原理通常用于计算多个独立事件同时发生的概率.其数学表达式如下:P(A∩B)=P(A)×P(B│A).
贝叶斯公式
假设有两个事件 A 和 B,它们的概率分别为 P(A) 和 P(B),现在要求P(A|B).
条件概率式
其中,P(A∩B) 表示 A 和 B 同时发生的概率.
乘法原理
P(A∩B)=P(A)×P(B│A)
其中,P(B|A) 表示在 A 发生的条件下B 发生的概率.
现在可以将 P(A∩B) 替换为乘法公式的右边表达式
根据全概率公式,将 P(B)展开为:
其中
表示事件 A 不发生的情形.将上式带回贝叶斯公式中,可以得到:
三
典故新解
烽火戏诸侯
西周末年,昏庸的周幽王为博爱妾褒姒一笑,采纳了虢石父的建议,点燃了骊山烽火台。褒姒见千军万马召之即来,挥之即去,如同儿戏一般,觉得十分好玩,禁不住嫣然一笑。周幽王大喜,因而又数次点燃烽火,导致诸侯们都不相信烽火,也渐渐不来了。后来犬戎攻破镐京,杀死了没有诸侯来救驾的周幽王。
用贝叶斯定理计算:
设
P(撒谎)=0.1
P(真话)=0.9
(先验概率)
P(敌人入侵|真话)=0.8
P(敌人没入侵|真话)=0.2
P(敌人入侵|撒谎)=0.3
P(敌人没入侵|撒谎)=0.7
可求得当敌人没入侵时周幽王撒谎的概率(后验概率)
P(撒谎|敌人没入侵)
=(P(撒谎)×P(敌人没入侵|撒谎))/P(敌人没入侵)
=(P(撒谎) ×P(敌人没入侵|撒谎))/(P(撒谎)×P(敌人没入侵|撒谎)+P (真话) ×P(敌人没入侵|真话))
=(0.1×0.7)/(0.1×0.7+0.9×0.2)
=0.28(28%)
P (真话|敌人没入侵)
=1- P (撒谎|敌人没入侵)
=1-0.28=0.72(72%)
可见,在周幽王撒谎五次后,就点燃烽火一事而言,他在诸侯心中基本没有了信任度,也难怪后来陷入孤立无援的局面。
将国事当儿戏,不禁惹得后人感慨:
良夜颐宫奏管簧,无端烽火烛穹苍。
可怜列国奔驰苦,止博褒妃笑一场。
——《东周列国志》
四
经典问题
01蒙提霍尔问题
(三门问题)
有三扇门,其中一扇门后面有一辆车,另外两扇门后面分别有山羊。参赛者选择其中一扇门,主持人打开另外两扇门中的一扇门,显示出其中一只山羊。此时,主持人给参赛者提供一个机会,允许他更改选择。请问参赛者如果更改选择,获得车的概率会更大吗?
解答:
事件A和事件B可设定如下:
事件A为:第一次抽样为山羊;
事件B为:第三次抽样为汽车.
事件A完成后,我们将“从剩下两扇门中去掉一只山羊”变为一个固定步骤,然后再执行事件B。换门后能赢得汽车的概率问题,变为求事件B的概率P(B).
这里最终求的不是条件概率,需要使用贝叶斯公式的变形版本:
P(B)=P(B|A)×P(A)/P(A|B)
P(A)=P(第一次抽样为山羊)=2/3.
在第一次抽样为山羊发生的前提下,由于主持人确定会再去掉一只山羊,于是第三次抽样为汽车的概率为100%,即
P(B|A)=P(第三次抽样为汽车|第一次抽样为山羊)=1.
而第三次抽样为汽车发生的前提下,剩下两个门只能都是山羊,于是第一次抽样为山羊的概率也为100%,即 P(A|B)=P(第一次抽样为山羊|第三次抽样为汽车)=1.
于是,根据贝叶斯公式,
P(B)=P(第三次抽样为汽车)
=P(B|A)×P(A)/P(A|B)=2/3.
02别墅问题
一座别墅在过去的20年里一共发生过2次被盗,别墅的主人有一条狗,狗平均每周晚上叫3次,在盗贼入侵时狗叫的概率被估计为0.9,问题是:在狗叫的时候发生入侵的概率是多少?
解答:
我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,
P(A)=3/7,
P(B)=2/(20×365)=2/7300,
P(A|B)=0.9,
按照公式很容易得出结果:
P(B|A)=0.9×(2/7300)/(3/7)=0.00058.
03假阳性问题
已知某种疾病的发病率是0.001,即1000人中会有1个人待病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
解答:
根据题目的条件,我们可以使用贝叶斯定理求解。
设事件A表示病人确实得病,事件B表示病人的检验结果为阳性,则:
P(A)=0.001,即病人确实得病的概率是0.001.
P(B|A)=0.99,即在病人确实得病的情况下,检验结果呈阳性的概率是0.99.
= 0.05,即在病人没有得病的情况下,检验结果呈阳性的概率是0.05.
求解病人确实得病的概率,即P(A|B):
首先
其中
=1-P(A).
计算得到:
P(B)=0.99×0.001+0.05×0.999≈0.051
根据贝叶斯定理:
P(A|B)=P(B|A)×P(A)/P(B)
代入上面的值计算得到:
P(A|B)=0.99×0.001/0.051≈0.0194
因此,这个病人确实得病的可能性约为1.94%.
五
生活中的应用
01垃圾邮件过滤器
贝叶斯方法可以应用于垃圾邮件过滤器中,用来预测某个邮件是垃圾邮件的概率.这需要先知道一些先验概率(例如,垃圾邮件的比例是多少),然后根据邮件中的关键词或其他特征来计算后验概率(即这封邮件是垃圾邮件的概率是多少)。
02医学诊断
在医学领域中,贝叶斯方法可以用来预测某种疾病的概率,这需要先知道某种疾病的基本概率,然后根据一些指标如血液检查结果等信息来计算后验概率,从而确定是否需要进一步进行特定检查。
03机器翻译
贝叶斯方法可以用来改善机器翻译的质量,例如,使用一个先验概率表示翻译中的某个词可能属于什么类型的短语,并使用选择最大化概率的方式来选择最佳的翻译。
04金融风险管理
贝叶斯方法可以用来预测某个金融产品价格变化的概率,这需要先知道某个投资产品的基本概率,然后根据市场信息和经济指标等因素来计算后验概率,从而确定变化的可能性。
六
哲学联系
01做行动派
不行动意味着你失去了获取新信息的可能,错过了进步的机会。贝叶斯告诉我们给我们提供了一个很好的思路: 先做一个预判,动起来,利用新的信息不断修正原来的预判。
02初始概率很重要
初始概率越准确,我们就能越容易、越快速的得到真实的概率。而如何获得相对靠谱的初始概率,是个硬功夫,它需要你的经验和平时的深度思考,有时甚至和底层的价值观、思维方式都有关。
03对特殊情况要足够重视
贝叶斯定理告诉我们,万分之一概率的事情,也有可能因为特殊事件,一下子变成了50%。所以,每当出现特殊的、罕见的情况时,我们要保持高度警惕。
04信息的收集、质量、判断,是提高决策水平的最重要环节
在做决定之前,尽可能多的收集信息是必须的。但是错误的信息、低质量的信息,会让你的修正偏离真相越来越远,你能不能区分信息来源的可靠性、能不能进行交叉验证、逻辑推理,就显得至关重要。
撰稿 | 托马斯小火车队
排版 | 托马斯小火车队
联系客服