最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。
用途:图像识别,机器学习等
一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best features are not the best m features”。因此最终有了mRMR,
即最大化特征与分类变量之间的相关性,而最小化特征与特征之间的相关性。这就是mRMR的核心思想。
定义:给定两个随机变量x和y,他们的概率密度函数(对应于连续变量)为
我们的目标就是找出含有
离散变量
最大相关性:
- 速度快
- 估计结果更鲁棒
- 是
I(.) 的一阶最优估计
参考
【Hanchuan Peng et.al】Feature Selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy
【Barry O’Sullivan, Cork】Feature Selection for High-Dimensional Data
联系客服