打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据挖掘十大经典算法(9):朴素贝叶斯
本文所采用图片均来自清华大学计算机系王建勇老师的课程《数据挖掘:原理与算法》

 

   贝叶斯分类的基础是贝叶斯公式,如下图。P(H|X)是根据X参数值判断其属于类别H的概率,称为后验概率。P(H)是直接判断某个样本属于H的概率,称为先验概率。P(X|H)是在类别H中观测到X的概率,P(X)是在数据库中观测到X的概率。

朴素贝叶斯分类器

    由于P(X)对于任何一个类别H而言,其值都是固定的,因此在计算P(H|X)时不需要考虑。朴素贝叶斯分类的最核心的假设是X向量中的每一个参数xi与xj之间都是相互独立的,因此有下面计算P(X|H)的公式:

   在这个假设下,朴素贝叶斯分类器变成了简单的概率计算。基于训练集的数据,事先计算出每个类别的概率P(Ci),再计算出每个类别下每个参数的概率P(xi|Ci)。当面临一个新样本时,利用上面简化的贝叶斯公式计算出P(Ci|X),值最大的Ci记为分类结果。为了防止出现零概率现象,可以在保存的每个概率的分子分母都+1.朴素贝叶斯分类器的算例如下图所示。

贝叶斯网络
    贝叶斯网络能够克服朴素贝叶斯分类器参数相互独立的假设,如果参数A依赖于参数B,则建立B->A的一条有向边。贝叶斯网络与朴素贝叶斯分类器的异同如下图所示。可以看到在计算类别概率P(c)时,二者一致;只是在计算P(click|c)时,朴素贝叶斯分类器只与类别c有关,而贝叶斯网络还依赖于html的值。


   由于参数之间存在依赖关系,因此在计算训练集的概率之前,需要先建立贝叶斯网络。一种生成贝叶斯网络的方法如下图所示,其中MI(X,Y)表示的是参数X和参数Y之间的相关关系,当独立时,MI为0;MI大于0,表示正相关;MI小于0,表示负相关。



  

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
文本分类技术基础
贝叶斯分类器、算法部分源代码
朴素贝叶斯分类器
从贝叶斯公式到朴素贝叶斯算法
【彩票】白话贝叶斯理论及在足球比赛结果预测中的应用
【NLP】经典分类模型朴素贝叶斯解读
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服