PCA ： principal component analysis ( 主成分分析)

PCA ： principal component analysis ( 主成分分析)，是一种数据分析方法，通过线性变换将原始数据变换为一组维度无关的表示，用于提取数据的主要特征分量，常用于高维数据降维。

PCA的工作机制

数据的向量表示及降维问题

一般情况下，在数据挖掘和机器学习中，数据被表示为向量。例如某个淘宝店2012年的全年流量以及交易情况可以看成一组记录的集合，其中每一天的数据是一条记录，格式如下：

（日期，浏览量，访客数，下单数，成交数，成交金额）

数据挖掘关心的大多是度量值，因此我们忽略掉日期这个字段后，我们得到一组数据，每条记录可以表示成一个5维列向量，其中一条看起来大约的样子：

我们当然可以对这一组五维向量进行分析和挖掘，但是大部分机器学习算法的复杂度和数据的维数有着密切关系，甚至与维数呈指数级关联，当然五维还好，但是实际机器学习中处理成千上万维的情况并不罕见，考虑到机器学习资源消耗的问题，必须对数据进行降维。

降维当然意味着信息丢失，但是鉴于数据本身常常存在相关性，我们可以想办法把信息损失降到最低。

举个例子，某学籍数据有两列M和F，其中M列，学生为男性，取值为1，学生为女性取值为0，F列，学生为女性，取值为1，学生为男性，取值为0。这样对任何一条记录来说，只要M为1，F必为0，反之M为0，F必为1。在这种情况下，我们将M或F去掉，实际上没有任何信息损失，因为只要保留一列，就能完全还原另一列。

当然这种极端的情况是不存在的，但是类似的情况还是很常见的，例如上面的淘宝店的数据，“浏览量”和“访客数”往往具有较强的相关关系，而“下单数”和“成交数”也存在较强的相关关系，这时，如果删除浏览量或者下单数其中的某一个指标，我们应该并不会丢失太多的信息。因此可以删除一个，以降低机器学习算法的复杂度。

上面给出的是降维的朴素思想描述，可以直接理解降维的动机和可行性，但是并不具有实际操作意义。例如，我们到底删除了那一列的损失的信息更少一点呢？亦或是根本不是删除几列而是通过某些变换将原始数据变为更少的列但是损失的信息更少？到底如何度量丢失的信息多少呢？如何根据原始数据决定具体的降维操作步骤呢？

要回答上面的问题，就要对降维问题进行数学化和形式化的讨论。而PCA是一种具有严格数学证明并且已经被广泛采用的降维方法。下面我一起从新“发明”一遍PCA。

向量的表示及基变换

下面有必要研究一下向量的数学性质，这些性质是后续导出PCA的基础

内积与投影

下面看一下，高中就学过的向量运算：内积。两个维数相同的向量的内积被定义为：

内积运算将两个向量映射为一个实数。其计算方式非常容易理解，但是其意义并不明显。下面我们分析内积的几何意义。假设A和B是两个n维向量，我们知道n维向量可以等价表示为n维空间中一条从原点发射的有向线段，为了简单起见，先假设A和B均为二维向量，用下面图中的有向线段表示，见下图：

A和B的内积就是A在B上的投影长度乘以B的模。再进一步，如果我们假设B的模为1，则A与B的内积就是A向B所在直线投影的矢量长度！这就是内积的一个几何解释。

基

一个二维向量可以对应二维笛卡尔直角坐标系中从原点出发的一条有向线段。例如：

上面的向量可以用（3，2）表示，但是一个（3，2）本身是不能明确表示一个向量的。准确的表达是：假如以x轴和y轴上正方向长度为1的向量为标准，那么（3，2）实际上是说在x上投影为3，在y上投影为2，这里（1，0）和（0，1）叫做二维空间中的一组基。

所以要准确的描述向量，要先确定一组基，然后给出向量在各个基上的投影值，就可以了。

实际上，任何两个不共线的向量，都可以成为一组基。但是一般我们希望基的模为1，因为如果是1，就像上文所说的一样，根据点乘的几何意义，可以方便的用“向量”点乘“新基”来获取在新基下的坐标了。

现在想要获取（3，2）在蓝色基下的坐标，分别计算（3，2）和两个基的内积，就得到了新坐标：

基变换的矩阵表示

以上列举的例子用矩阵相乘的形式简洁的表示：

稍稍推广一下，如果我们有m个二维向量，只要将二维向量按列拍成利益两行m列矩阵，然后用“基矩阵”乘以这个矩阵，就可以得到这些向量在新基下的值。例如：

于是一组向量的基变换被干净的表示为矩阵的相乘。

以上是3个二维向量的情况，下面演绎到一般的情况：

如果我们有M个N维向量，想将其变换为由R个N维向量表示的新空间中，那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，其中AB的第m列为A中第m列变换后的结果。

两个矩阵相乘的意义在于将右边矩阵中的每一列变换到左边矩阵的每一行行向量为基表示的新空间中。更抽象的说，一个矩阵可以表示一种线性变换。

##协方差矩阵及优化目标

上面讨论了不同的基可以对同一数据给出不同的表示，而且如果基的数量本身小于向量本身的维数，则可以达到降维的效果。但是如何选择基才是最优的呢？或者说，如果有一组N维向量，现在要想将其降到K维，那么我们应该如何选择K个基才能最大程度的保留原来的信息呢？

现在先用一种非形式化的语言来描述。假设现在有5条记录，将他们表示成矩阵：

其中每一列为一条数据记录，而一行为一个字段。为了后续处理方便，首先将每个字段所有值减去均值，这样每个字段都变成均值为0：

可以看到五条数据在坐标系中的样子：

现在问题上来了：如果我们必须用一维来表示这些数据，又希望尽量保留原始信息，要如何选择呢？

这个问题实际上是要在二维平面上选择一个方向，将所有的数据都投影到这个方向所在的直线上，用投影值表示原始数据。这是一个二维降到一维的问题。

那么应该如何选择呢？一种直观的理解是：希望投影后投影值尽可能的分散。也就是变换后，仍然可以很好的区分。

下面用数学的语言描述：

方差

上文说到，我们希望投影后，投影值尽可能的分散，而这种分散程度，可以用数学上的方差来表达。一个字段的方差可以看做每个元素与字段均值差的平方和的均值，即：

上面已经将每个字段的均值都化为零了，因此方差可以直接用每个元素的平方和除以元素个数表示：

于是上面的问题被形式化的表述为：寻找一个一维基，使得所有数据变换为这个基上的坐标后，方差值最大。

协方差

对于上面二维降为一维的问题来说，找到那个使得方差最大的方向就可以了。不过对于更高维，还有一个问题需要解决。考虑三维降到二维的问题，与之前相同，首先我们需要找到一个方向使得投影后方差最大，这样就完成了第一个方向的选择，继而我们选择第二个投影方向。

如果还是单纯的选择方差最大的方向，显然，这个方向与第一个方向应该是几乎重合在一起，显然这样的维度是没有用的，因此，应该有其他约束。从直观上说，让两个字段尽可能的表示更多原始信息，我们不希望它们之间存在（线性）相关性的，因此相关性意味着两个字段不是完全独立，必然存在重复表示的信息。

数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段的均值为0，则：

可以看到，在字段均值为0的情况下，两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时，表示两个字段完全独立。为了让协方差为0，我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的

因此我们得到了降维问题的优化目标：将一组N维向量降为K维（K大于0，小于N），其目标是选择K个单位正交基，使得原始数据变换到这组基上后，各字段两两之间的协方差为0（约束），而字段内的方差尽可能大（在正交的约束下，取最大的K个方差）。

协方差矩阵

最终要达到的目的与字段内方差以及字段之间的协方差有密切的关系。因此我们希望两者统一表示，仔细观察就会发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关，于是我们凉了灵感：

假设我们只有A和B两个字段，我们按行组成矩阵X：

然后我们用X乘以X的转置，并乘上系数1/m：

奇迹出现了！这个矩阵对角线上的两个元素分别是两个字段的方差，而其他元素是a与b的协方差。两者被统一到了一个矩阵的。

根据矩阵运算的法则，这个结论很容易被推广到一般的情况：

假设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设

则C是一个对称矩阵，其对角线分别是各个字段的方差，而第j行j列和j行i列的元素相同，表示i和j两个字段的协方差。

协方差矩阵的对角化

根据上诉推导，我们发现达到优化目标（就是字段之间的协方差最小，字段内方差最大）等价于将协方差矩阵对角化，对角线上元素从大到小排列：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了目的。

上面的这句话，换一种说法：设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

现在事情很明白了！优化目标变成了：寻找一个矩阵P，满足

是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

至此，我们离“发明”PCA还有仅一步之遥！

现在所有焦点都聚焦在了协方差矩阵对角化问题上，有时，我们真应该感谢数学家的先行，因为矩阵对角化在线性代数领域已经属于被玩烂了的东西，所以这在数学上根本不是问题。

由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：

1）实对称矩阵不同特征值对应的特征向量必然正交。

2）设特征值 λ 重数为r，则必然存在r个线性无关的特征向量对应于λ，因此可以将这r个特征向量单位正交化。

由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量组成矩阵：

则对协方差矩阵C有如下结论：

其对角元素为各特征向量对应的特征值（可能有重复）。

换句话说，只要求出C的特征值，再求出每一个特征值对应的特征向量，根据特征值的大小把特征向量排列成矩阵E，则E的转置就是矩阵P。

我们已经找到了需要的矩阵P：

P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照Λ中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

至此我们完成了整个PCA的数学原理讨论。在下面的一节，我们将给出PCA的一个实例。

算法与实例

PCA算法

下面总结一下PCA的算法步骤：

设m条n维数据。

将原始数据按列组成n行m列的矩阵X；
将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值；
求出协方差矩阵C
求出协方差矩阵的特征值及对应的特征向量
将特征向量按照对应特征值大小从上到下按行排成矩阵，去前K行组成矩阵P
Y=PX即为降维到K维后的数据

实例

这里以上文提到的

为例，我们用PCA方法将这组二维数据其降到一维。

因为这个矩阵的每行已经是零均值，这里我们直接求协方差矩阵：

然后求其特征值和特征向量，具体求解方法不再详述，可以参考相关资料。求解后特征值为：

其对应的特征向量分别是：

那么标准化后的特征向量为：

因此我们的矩阵P是：

可以验证协方差矩阵C的对角化：

最后我们用P的第一行乘以数据矩阵，就得到了降维后的表示：

降维投影结果如下图：

MATLAB实现

MATLAB实现PCA的方法主要有2种：

直接调用MATLAB工具箱中的 princomp() 函数
自己编程实现PCA过程

方法1

[COEFF SCORE latent] = princomp(x)

参数说明：

1）. COEFF是主成分分量，即样本协方差矩阵的特征向量；就是P

2）. SCORE主成分即样本X在主成份分量COEFF上的投影，若需要降k维，则只需要取前k列主成分分量即可；就是Y

3）. lantent是协方差矩阵特征值组成的向量。

用SCORE( : , 1:K)就是要求的降维后的目标矩阵

下面实现这13个4维行向量组成的矩阵：

>> [COFEE,SCORE,latent]=princomp(ingredients);
>> SCORE(:,1:2);

得到：

和结果：

这样13个思维向量就降为了13个2维向量：

求贡献率：

>> cumsum(latent)./sum(latent)；

得到前2维就占到了贡献率的98%；

所以用一下命令看到四个维度在两个维度上的投影，蓝色线表示每个维度的投影，红点表示每组值的投影，其中红色值是等比例缩放的，为了保证最大的值为正的，蓝色的线的正负也做了变化：

>>biplot(pc(:,1:2),'Scores',score(:,1:2),'VarLabels',...
{'X1' 'X2' 'X3' 'X4'})

方法2

PCA算法一句话表示就是“将所有样本X均值m，再乘以样本的协方差矩阵C的特征向量V，即为PCA主成分分析”。

[1].将原始数据按行组成ｍ行ｎ列样本矩阵X（每行一个样本，每列为一维特征）

[2].求出样本X的协方差矩阵C和样本均值m；（Matlab可使用cov()函数求样本的协方差矩阵C，均值用mean函数）

[3].求出协方差矩阵的特征值D及对应的特征向量V；（Matlab可使用eigs()函数求矩阵的特征值D和特征向量V）

[4].将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P；（eigs()返回特征值构成的向量本身就是从大到小排序的）

[5].Y=(X-m)×P即为降维到k维后的数据；

>> [Row Col]=size(X);
>>covX=cov(X); %求样本的协方差矩阵（散步矩阵除以(n-1)即为协方差矩阵）
>>[V D]=eigs(covX); %求协方差矩阵的特征值D和特征向量V
>>meanX=mean(X); %样本均值m
%所有样本X减去样本均值m，再乘以协方差矩阵（散步矩阵）的特征向量V，即为样本的主成份SCORE
>>tempX= repmat(meanX,Row,1);
>>SCORE2=(X-tempX)*V %主成份：SCORE
>>pcaData2=SCORE2(:,1:k)

Java实现

编写代码库如下：

此处不再详细说明。

思考

根据上面对PCA的数学原理的解释，我们可以了解到一些PCA的能力和限制。PCA本质上是将方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性。

因此，PCA也存在一些限制，例如它可以很好的解除线性相关，但是对于高阶相关性就没有办法了，对于存在高阶相关性的数据，可以考虑Kernel PCA，通过Kernel函数将非线性相关转为线性相关。另外，PCA假设数据各主特征是分布在正交方向上，如果在非正交方向上存在几个方差较大的方向，PCA的效果就大打折扣了。

最后需要说明的是，PCA是一种无参数技术，也就是说面对同样的数据，如果不考虑清洗，谁来做结果都一样，没有主观参数的介入，所以PCA便于通用实现，但是本身无法个性化的优化。

希望这篇文章能帮助朋友们了解PCA的数学理论基础和实现原理，借此了解PCA的适用场景和限制，从而更好的使用这个算法

注：本文主要根据网络博客内容和MATLAB帮助文档撰写

本名郭聪聪，在山东省出生和长大，当过几年留守儿童；
小时候的理想现在已经忘了，不过小时候曾经“写诗”说要为足球而死，但是这个梦想不出意外的破灭了；
我的大学本科在哈尔滨工学大学度过，后来去工作了两年，现在又回到哈尔滨工业大学读研究生；
收到本科某室友的影响，非常想当一名程序员，主要是我喜欢这种在电脑前面改变世界的感觉；
曼联球迷（伪），对待曼联的感情有点像对待国足，喜欢吐槽它的感觉，又不喜欢别人骂它；
喜欢看电影，听音乐，最喜欢能击中我内心深处的电影和能让我放松快乐的音乐；
......
想了解（僚）我，关注本公众号就好了...

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。