通俗易懂的方式描述一下“贝叶斯定理”:通常,事件 A 在事件 B 发生的条件下发生的概率与事件 B 在事件 A 发生的条件下发生概率并不相同,但是它们两者之间存在一定的相关性,并具有以下公式(称之为“贝叶斯公式”):
看到上述公式,你可能一头雾水,不过不必慌张,下面我们来了解一下“贝叶斯”公式。
首先我们要了解上述公式中符号的意义:
P(A) 这是概率中最基本的符号,表示 A 出现的概率。比如在投掷骰子时,P(2) 指的是骰子出现数字“2”的概率,这个概率是六分之一。
P(B|A) 是条件概率的符号,表示事件 A 发生的条件下,事件 B 发生的概率,条件概率是“贝叶斯公式”的关键所在,它也被称为“似然度”。
P(A|B) 是条件概率的符号,表示事件 B 发生的条件下,事件 A 发生的概率,这个计算结果也被称为“后验概率”。
如上图
黄色的椭圆表示事件A发生的概率 P(A)
紫色的椭圆表示事件B发生的概率 P(B)
A 和 B 相交的部分就是 P(A,B) 发生的概率
其中 P(A) 和 P(B) 都是边缘概率,P(A,B) 就是联合概率,可以看到事件A发生的概率和事件 B 相交的部分就是 P(A,B)。
然后我们也就很容易理解 P(A,B) 发生的概率就是:事件 A 发生的概率,乘以事件 B 在事件 A 发生的条件下发生的概率,即 P(A,B)=P(A)*P(B∣A)。
举个例子理解贝叶斯定理
人口中 1% 患有癌症;如果患有癌症,检测为阳性 positive 的概率(敏感性 sensitivity )为 90%;如果没有患癌,检测为阴性 negative 的概率(特异性 specitivity )为 90%;
问题:在没有任何症状的情况下做检查,结果为阳性,那患有癌症的概率是多少?
根据如上描述得到 P(C)=0.01;P(Pos|C) = 90%;P(Nes|ℸC) = 90%;求解 P(C|Pos)。
此问题的画图解析如下:
其中:
黑色矩形框为“所有人口”;
粉色背景矩形框 = 粉色未划线 + 粉色划红色,“人口中患癌群体”,占总人口的 0.01,即概率为 P(C) = 0.01;
白色背景区域 =白色未划线+白色划蓝线,人口中未患癌群体”,占总人口的 1- P(C) = 1 - 0.01 = 0.99,即概率为 P(ℸC)=0.99;
粉色划红色为“人口中患癌,并检测为阳性(positive)的群体”,此群体占整个患癌群体的 90%,即概率为 P(Pos|C) = 90%,那此群体占总人口的比例是多少呢,即 P(C)*P(Pos|C)=0.01 * 0.9 = 0.009,表示为 P(C,Pos);
白色未划线为 “人口中未患癌,并检测为阴性(negative)的群体”,此群体占整个未患癌群体的 90%,即概率为 P(Neg|ℸC) = 0.9 = 90%;
白色划蓝线为“人口中未患癌,并检测为阳性(positive)的群体”,此群体占未患癌群体的比例等于白色背景区域减去白色未划线区域,即 1- P(Neg|ℸC) = 1 - 0.9 = 0.1 ,即概率为 P(Pos|ℸC),那此群体占总人口的比例是多少呢,即P(ℸC)*P(Pos|ℸC) = 0.99 * 0.1 = 0.099,表示为 P(ℸC,Pos);
黄绿色圈的区域为 “人口中检测为阳性的群体”,此群体等于“人口中患癌,并检测为阳性(positive)的群体”加“人口中未患癌,并检测为阳性(positive)的群体”,即 P(C,Pos)+P(ℸC,Pos) = 0.009+0.099 = 0.108,表示为 P(Pos);
P(C|Pos) 为“人口中患癌,并检测为阳性(positive)的群体”占“人口中检测为阳性的群体”的比例,即 P(C,Pos)/P(Pos) = 0.009/0.108 = 0.0833。
整个过程计算公式即为贝叶斯定理公式:
P(C|Pos) = P(C,Pos)/P(Pos) = P(C)*P(Pos|C)/P(Pos)
例子中的先验概率、联合概率、后验概率计算如下:
先验概率:
P(C) = 0.01 = 1%,则 P(ℸC) = 1- P(C) = 1 - 0.01 = 0.99 = 99%
P(Pos|C) = 0.9 = 90%
P(Neg|ℸC) = 0.9 = 90% ,
则 P(Pos|ℸC) = 1- P(Neg|ℸC) = 1 - 0.9 = 0.1
根据联合概率公式 P(A,B)=P(A)*P(B∣A) 得到联合概率:
P(C,Pos) = P(C)*P(Pos|C) = 0.01 * 0.9 = 0.009
P(ℸC,Pos) = P(ℸC) * P(Pos|ℸC) = 0.99 * 0.1 = 0.099
均一化:
P(Pos) = P(C,Pos) + P(ℸC,Pos) = 0.009 + 0.099 = 0.108
后验概率:
P(C|Pos) = P(C)*P(Pos|C)/P(Pos) = 0.009 / 0.108 = 0.0833
P(ℸC|Pos) = P(ℸC)*P(Pos|ℸC)/P(Pos) = 0.099 / 0.108 = 0.9167
了解完上述概念,你可能对贝叶斯定理有了一个基本的认识,实际上贝叶斯定理就是求解后验概率的过程。
“朴素贝叶斯算法”由两个词语组成。朴素(native)是用来修饰“贝叶斯”这个名词的。按照中文的理解“朴素”意味着简单不奢华。使用中就是假设事物之间的特征都是相互独立的,彼此互不影响,所以朴素贝叶斯只考虑组成,不考虑顺序。
联系客服