打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
什么时候使用PCA和LDA?

一、在真实的数据中总是会存在许多的冗余信息,PCA和LDA主要用于数据的降维

(1)当数据的特征数量P过多,甚至多过数据量N的时候,降维是必须的。维度越高,数据在每个特征维度上的分布就越稀疏,这对机器学习算法基本都是灾难性的。

(2)特征有比较明显的自相关的时候,也可以考虑降维。自相关会让很多模型的效果变差,主要是线性模型。这些模型效果不好,但是算的快,很多时候很有用。先降维再算会好的多。

(3)去除特征数据的冗余信息,也可以考虑采用PCA和LDA。

(4)当特征量维数大于3时,我们几乎不能对数据进行可视化。所以,有时为了对数据进行可视化,需要对其进行降维。可以找到2个或3个具有代表性的特征量,他们(大致)可以概括其他的特征量。

二、举两个例子更好的理解以上的问题

(1)从北京到天津的时间为30分钟,也可以说是0.5小时。但是把这两者当作两个特征,那么他们所表达的意义其实是完全一样的。这里我要表达的就是两个特征之间的相关性,如果两个特征相关性很强,那么完全可以合并成一个特征。

(2)如果给你很多人的特征:身高、体重、性格、单眼皮/双眼皮、酒窝、大眼睛/小眼睛、发色、是否有心脏病……然后根据这些特征去判断个体的性别。但是现在个体样本的数量不多,刚好有心脏病的全是女生,没有心脏病的全是男生,但是其实是否有心脏病对于区分男女其实根本没有什么作用。所以很有必要对数据进行降维,去掉那些没有用的噪声。

三、PCA和LDA两者的区别

PCA和LDA均可用于数据降维,但是两者是有区别的。PCA是一种无监督学习算法,无类别信息。其选择投影后使得数据方差最大的方向来投影,假设方差越大,信息量越多。

LDA选择投影后使得类内方差小而类间方差大的方向来投影,用到了类别信息。

总的来说,PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有判别性质的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。下面这张图一定程度上表示了PCA和LDA之间投影选择的差别。

选择用哪种算法来降维应该是根据具体的目的和场景来的,如果你的目的就是分类,那么显然LDA的选择标准更合理,如果你没有类别信息(无监督),那就只能选PCA,总之,两者选择投影的方向的标准是不一样的,看哪个和你的需要更契合。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)
LDA, PCA机器学习分类
哈工大硕士生用 Python 实现了 11 种经典数据降维算法,源代码库已开放
PCA数学原理
数据降维算法-从PCA到LargeVis
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服