打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
特征选择之最小冗余最大相关性(mRMR)

最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。
用途:图像识别,机器学习
一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR,
即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。这就是mRMR的核心思想。

互信息

定义:给定两个随机变量x和y,他们的概率密度函数(对应于连续变量)为p(x),p(y),p(x,y),则互信息为

I(x;y)=p(x,y)logp(x,y)p(x)p(y)dxdy

mRMR算法

我们的目标就是找出含有m{xi}个特征的特征子集S
离散变量
最大相关性:

maxD(S,c),D=1|S|ΣxiSI(xi;c)

xiicS
最小冗余度:
minR(S),R=1|S|2Σxi,xjSI(xi;xj)

连续变量
最大相关性:
maxDF,DF=1|S|ΣxiSF(xi;c)

F(xi,c)F
最小冗余度:
minRc,R=1|S|2Σxi,xjSc(xi;xj)

c(xi,xj)
当然,对于这些目标函数,还可以换做其他的函数,像信息增益,基尼指数等。
然后整合最大相关性和最小冗余度:
加法整合:
maxΦ(D,R),Φ=DR

乘法整合:
maxΦ(D,R),Φ=D/R

在实践中,用增量搜索方法寻找近似最优的特征。假设我们已有特征集Sm1,我们的任务就是从剩下的特征XSm1中找到第m个特征,通过选择特征使得Φ(.)最大。增量算法优化下面的条件:
maxxjXSm1[I(xj;c)1m1ΣxiSm1I(xj;xi)]

其算法的复杂度为O(|S|M)

算法优点

  • 速度快
  • 估计结果更鲁棒
  • I(.)的一阶最优估计

参考
【Hanchuan Peng et.al】Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy
【Barry O’Sullivan, Cork】Feature Selection for High-Dimensional Data

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
图像数据压缩原理
《开窍》—8、 信息论:利用信息消除世界的不确定性(读书分享)
白化whitening
[图文]MPEG-2压缩编码技术原理应用(五)
吴信东:数据挖掘算法的经典与现代
肺癌专题 | 通过医学影像的特征推断肺癌的体细胞突变
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服