打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
什么是贝叶斯定理?


「问答」第5期

最近很久没分享过干粮了,来聊聊贝叶斯定理吧。


随着搜索、社交网络、电子商务和移动互联网的发展,数据总量和增长速度已经到了常人(注:我这样的人)无法想象的地步。如何去处理这些数据已经形成了一门专有科学——数据科学( http://en.wikipedia.org/wiki/Data_science )。数据科学包括计算机科学(编程技术、机器学习)、商业应用(专业领域研究)和数理知识(数学·统计学)。其中数学相关的知识是大数据应用和发展的原动力。

举个例子,比如贝叶斯定理。

搞数理统计如果不知道贝叶斯定理,那么你的人生肯定是不完整的。贝叶斯定理是贝叶斯推断的应用,是英国数学家托马斯·贝叶斯在1763年首次提出的。与其他统计学不同,贝叶斯定理是建立在主观判断的基础上,它需要有大量的样本数据,并在数据的基础上进行计算,数据量越大,计算结果越能反映现实世界。

在计算机诞生之前,这个前提条件是很难满足的,所以贝叶斯定理在历史上很长一段时间内都没有得到很好的应用。然后,互联网时代来临了……

现在贝叶斯定理广泛应用于中文分词、垃圾邮件处理、机器学习、图像识别、拼写检查和一些常用的分类算法上。可以说,我们现在最常用的互联网服务上,贝叶斯定理无处不在。贝老爷子没能挺到今天看到他提出的理论在互联网时代大放异彩,也算是憾事。其实做基础研究和艺术创作的人都非常不容易,每天徜徉在知识的小黑屋里冥思苦想,时时刻刻准备改变世界,结果很多学术成果和艺术成就都是自己挂了之后才流芳百世的,这种事随便想想也会让人感到悲伤。

当然,这些伟大的创造者和先知先觉的神人大都是以认知世界和发现规律为己任,他们注定是要去拯救和影响一代又一代的后人,所以早已超凡脱俗长袖飘飘,肯定不会有我等这些俗人俗想。

关于贝叶斯定理,刘未鹏和阮一峰的博客上都做过详细的介绍,大家可以去深入学习。我这里做个最简介绍,希望能够帮助大家入门。

贝叶斯定理主要是用来描述两个条件概率之间的关系,先介绍下条件概率:

P(A) :表示事件 A 发生的概率
P(B) :表示事件 B 发生的概率
P(A∩B):表示事件 A 和事件 B 同时发生的概率,也叫联合概率

而条件概率的意思就是:事件B发生的情况下,事件A发生的概率,用 P(A|B) 来表示。同理,P(B|A) 就是事件 A 发生的情况下,事件 B 发生的概率。

用文氏图可以很容易的推导出贝叶斯公式,如图所示:

当事件 B 发生的情况下,事件 A 发生的概率就是 P(A∩B) 除以 P(B),也就是:
P(A|B) = P(A∩B) / P(B)
即:P(A∩B) = P(A|B) * P(B)
同理可得:P(A∩B) = P(B|A) * P(A)

换算一下就得到了贝叶斯公式:

P(A|B) * P(B) = P(B|A) * P(A)
也就是:
P(A|B) = P(B|A) * P(A) / P(B)

用人话说出来就是:事件 A 发生的情况下事件 B 发生的概率等于事件B发生的情况下事件 A 发生的概率乘以事件 B 发生的概率,然后再除以事件 A 发生的概率。

我承认这句话更像是绕口令而不是人话,反正你们懂的,如果不懂竟然能看到这里,好吧你赢了。

下面我们举个例子看看这个公式怎么用。有A、B两个一模一样的箱子,每个箱子里都放了很多黑球和白球。A 箱子里有6个黑球,4个白球;B 箱子里有1个黑球,9个白球。现在随机选择一个箱子拿出一个球,发现是黑球,请问这个球来自A 箱子的概率是多少?

解题思路是这样的:

我们把从 A 箱子拿出球的事件设置为 A 事件,拿出的球是黑球设置为 B 事件。由于两个箱子是一模一样的,那么从 A 箱子拿出球的概率是二分之一,即:

P(A) = 0.5

拿出是黑球的概率也很容易算出来,把所有的黑球加起来除以球的总数,即:

P(B) = (6+1)/20 = 0.35

从 A 箱中拿出黑球的概率就更容易了,用 A 箱中的黑球数除以 A 箱中球的总数,即:

P(B|A) = 6 / (4 + 6) = 0.6

那么根据公式,这个黑球来自 A 箱的概率就是:

P(A|B) = 0.6 * 0.5 / 0.35 ≈ 0.857

生活中我们也会常常被类似的概率问题困扰,比如医患关系中常见的误诊问题,这些都是可以通过贝叶斯公式进行概率演算的,网络上有很多相关案例,有兴趣的可以去阅读学习(搜索「贝叶斯实例」即可)。

以前推荐过的书《黑客与画家》的第八章「防止垃圾邮件的一种方法」,就采用了贝叶斯原理实现垃圾邮件过滤器,其中有详细的描述和实现思路,有这本书的童靴可以去读读。

还有一个学习材料,是 PyCon 上的一个视频讲座,配有相关的 Python 代码库,相关网址:
https://sites.google.com/site/simplebayes/home/pycon-2013

另外,如果你想从事大数据领域相关的工作,R 语言也是值得关注的一门语言,关于这门语言,我还没入门。

互联网老大 Mac Talk 文章。


点击原文,阅读丶问答第4期——「如何辨别计数资料和计量资料?」


采用数学分形图形处理的小猫咪

生物
统计

为你找值得看的内容,连接一切

欢迎分享,关注生活。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
概率论与数理统计之全概率公式和贝叶斯公式的应用
【暑期必备46个知识点:44】:贝叶斯公式
没有学不会的人工智能-概率论篇
今天,你贝叶斯了吗?
一文看懂贝叶斯定理及应用(值得收藏)
汉和资本:对投资中所谓“必然性事件”的思考
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服