打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
贝叶斯定理很好懂,一点都不难
userphoto

2022.06.28 云南

关注

近年来,人工智能浪潮兴起,不再仅存于科幻电影中, 已经逐渐走进我们的生活,并应用于各个领域, 进门前扫个脸的人脸识别、广泛存在于各类网站和 App 中的个性化推荐和智能客服机器人、天猫精灵等智能音响、 机器翻译、医学图像处理、辅助驾驶等等, 它不仅给许多行业带来了巨大的经济效益,也为我们的生活带来了许多改变和便利。而朴素贝叶斯算法是人工智能中应用最为广泛的分类算法之一,朴素贝叶斯算法基于“贝叶斯定理”实现,该原理的提出人是英国著名数学家托马斯·贝叶斯。贝叶斯定理是基于概率论和统计学的相关知识实现的。因此在理解“朴素贝叶斯算法”前,我们有必要先认识“贝叶斯定理”。
贝叶斯定理

通俗易懂的方式描述一下“贝叶斯定理”:通常,事件 A 在事件 B 发生的条件下发生的概率与事件 B 在事件 A 发生的条件下发生概率并不相同,但是它们两者之间存在一定的相关性,并具有以下公式(称之为“贝叶斯公式”):

看到上述公式,你可能一头雾水,不过不必慌张,下面我们来了解一下“贝叶斯”公式。

首先我们要了解上述公式中符号的意义:

  • P(A) 这是概率中最基本的符号,表示 A 出现的概率。比如在投掷骰子时,P(2) 指的是骰子出现数字“2”的概率,这个概率是六分之一。

  • P(B|A) 是条件概率的符号,表示事件 A 发生的条件下,事件 B 发生的概率,条件概率是“贝叶斯公式”的关键所在,它也被称为“似然度”。

  • P(A|B) 是条件概率的符号,表示事件 B 发生的条件下,事件 A 发生的概率,这个计算结果也被称为“后验概率”。

条件概率:

贝叶斯公式的核心是“条件概率”,譬如 P(B|A),就表示当 A 发生时,B 发生的概率,如果 P(B|A) 的值越大,说明一旦发生了 A,B 就越可能发生。两者可能存在较高的相关性。

先验概率:

其实“先验”就相当于“未卜先知”,在事情即将发生之前,做一个概率预判,一般来源于历史数据。

边缘概率:

边缘概率是与联合概率相对应的,P(A) 和 P(B) 这类仅与单个随机变量有关的概率称为边缘概率。边缘概率是不用求的,一般都会给出。

联合概率:

定义:指包含多个条件且所有条件同时成立的概率,记作 P(A,B) 或 P(AB) 或 P(A∩B),不过一般都是写成 P(A,B)。

分析:事件 A 和事件 B 可以相互影响的,不过也可以相互独立。

如上图

黄色的椭圆表示事件A发生的概率 P(A)

紫色的椭圆表示事件B发生的概率 P(B)

A 和 B 相交的部分就是 P(A,B) 发生的概率

其中 P(A) 和 P(B) 都是边缘概率,P(A,B) 就是联合概率,可以看到事件A发生的概率和事件 B 相交的部分就是 P(A,B)。

然后我们也就很容易理解 P(A,B) 发生的概率就是:事件 A 发生的概率,乘以事件 B 在事件 A 发生的条件下发生的概率,即 P(A,B)=P(A)*P(B∣A)。

举个例子理解贝叶斯定理

人口中 1% 患有癌症;如果患有癌症,检测为阳性 positive 的概率(敏感性 sensitivity )为 90%;如果没有患癌,检测为阴性 negative 的概率(特异性 specitivity )为 90%;

问题:在没有任何症状的情况下做检查,结果为阳性,那患有癌症的概率是多少?

根据如上描述得到 P(C)=0.01;P(Pos|C) = 90%;P(Nes|ℸC) = 90%;求解 P(C|Pos)。

此问题的画图解析如下:

其中:

黑色矩形框为“所有人口”;

粉色背景矩形框 = 粉色未划线 + 粉色划红色“人口中患癌群体”,占总人口的 0.01,即概率为 P(C) = 0.01

白色背景区域 =白色未划线+白色划蓝线人口中未患癌群体”,占总人口的 1- P(C) = 1 - 0.01 = 0.99,即概率为 P(ℸC)=0.99;

粉色划红色为“人口中患癌,并检测为阳性(positive)的群体”,此群体占整个患癌群体的 90%,即概率为 P(Pos|C) = 90%,那此群体占总人口的比例是多少呢,即 P(C)*P(Pos|C)=0.01 * 0.9 = 0.009,表示为 P(C,Pos)

白色未划线为 “人口中未患癌,并检测为阴性(negative)的群体”,此群体占整个未患癌群体的 90%,即概率为 P(Neg|ℸC) = 0.9 = 90%;

白色划蓝线人口中未患癌,并检测为阳性(positive)的群体”,此群体占未患癌群体的比例等于白色背景区域减去白色未划线区域,即 1- P(Neg|ℸC) = 1 - 0.9 = 0.1 ,即概率为 P(Pos|ℸC),那此群体占总人口的比例是多少呢,即P(ℸC)*P(Pos|ℸC) = 0.99 * 0.1 = 0.099,表示为 P(ℸC,Pos)

黄绿色圈的区域为 “人口中检测为阳性的群体”,此群体等于“人口中患癌,并检测为阳性(positive)的群体”加人口中未患癌,并检测为阳性(positive)的群体”,即 P(C,Pos)+P(ℸC,Pos) = 0.009+0.099 = 0.108,表示为 P(Pos)

P(C|Pos) 为“人口中患癌,并检测为阳性(positive)的群体”占“人口中检测为阳性的群体”的比例,即 P(C,Pos)/P(Pos) = 0.009/0.108 = 0.0833。

整个过程计算公式即为贝叶斯定理公式:

P(C|Pos) = P(C,Pos)/P(Pos) = P(C)*P(Pos|C)/P(Pos)

例子中的先验概率、联合概率、后验概率计算如下:

先验概率:

P(C) = 0.01 = 1%,则 P(ℸC) = 1- P(C) = 1 - 0.01 = 0.99 = 99%

P(Pos|C) = 0.9 = 90%

P(Neg|ℸC) = 0.9 = 90% ,

则 P(Pos|ℸC) = 1- P(Neg|ℸC) = 1 - 0.9 = 0.1

根据联合概率公式 P(A,B)=P(A)*P(B∣A) 得到联合概率:

P(C,Pos) = P(C)*P(Pos|C) = 0.01 * 0.9 = 0.009

P(ℸC,Pos) = P(ℸC) * P(Pos|ℸC) = 0.99 * 0.1 = 0.099

均一化:

P(Pos) = P(C,Pos) + P(ℸC,Pos) = 0.009 + 0.099 = 0.108

后验概率:

P(C|Pos)  =   P(C)*P(Pos|C)/P(Pos) = 0.009 / 0.108 = 0.0833

P(ℸC|Pos) = P(ℸC)*P(Pos|ℸC)/P(Pos)  = 0.099 / 0.108 = 0.9167

了解完上述概念,你可能对贝叶斯定理有了一个基本的认识,实际上贝叶斯定理就是求解后验概率的过程。

朴素贝叶斯算法”由两个词语组成。朴素(native)是用来修饰“贝叶斯”这个名词的。按照中文的理解“朴素”意味着简单不奢华。使用中就是假设事物之间的特征都是相互独立的,彼此互不影响,所以朴素贝叶斯只考虑组成,不考虑顺序。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
贝叶斯定理:做对了99%的事情为何依然失败?癌症检测靠谱吗?
贝叶斯主义者
算概率?你会吗?
全概率公式与贝叶斯公式例题
“概率的概率”——贝叶斯公式的通俗理解
根据结果倒推原因——贝叶斯定理
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服