GSEA入门--原理

最近听了一个生信的live收获很大，其中大神有讲到GSEA图的介绍，很受启发，觉得可以抽点时间我们来好好看一看GSEA到底是什么，我们来了解一下其原理。

举个简单的例子，我们有一个肿瘤药物敏感组vs不敏感对照组。我们可以拿到它的表达谱，我们可以根据差异表达的基因得到一个基因列表L（gene list）。重点是我们从这个差异的基因列表中能得到什么生物学信息？

1: 拿到这个基因列表L，你会怎么处理呢？

按照一般的分析套路来说，我们肯定会关注top的基因，看看表达倍数差异大的基因（上调或者是下调的top基因），然后拿到这些基因进行分析（通路富集分析，画热图等等）。
(PS:做过GO,KEGG通路富集分析最后得到的结果就是会关注top的基因以及通路，但是如果表达差异不显著但是可能对生物通路很重要的基因则会漏掉。)

Q：取top基因分析有什么缺陷吗？
1、经过多重假设检验校正后，单个基因可能达不到统计学意义的阈值，因为芯片分析可能有背景噪声，相关的生物学差异不大。
2、有些显著性差异表达的基因（具有统计学意义）但是没有什么生物学意义。
3、一系列协同作用的基因会影响细胞的生命活动。（与第一条联系起来）单基因分析可能会遗漏对通路的重要影响。例如编码代谢途径重要成员的基因上调20%，可能会显著改变该途径的通量，而且可能比单个基因增加20倍更为重要。
4、当研究相同的生物作用通路时，这两项研究中具有统计学意义的基因列表可能会很少有重叠。（如肿瘤药物敏感组VS不敏感组）

2：那么有什么方法可以对其进行改进嘛？
GSEA(Gene Set Enrichment Analysis)是一种用来分析基因表达的方式手段，既然是Gene Set,那么这个主要手段是关注在了基因集上面的。而且在基因set的基础上，还要进行富集分析。GSEA的目标是确定一个基因集S的成员是否倾向于出现在列表L的顶部(或底部)，在这种情况下，该基因集与表型分类区分相关。

Q：说了半天什么是基因set？它和前面得到的那个基因list有什么区别吗？
基因集（gene set）的定义是基于先前的生物学知识，例如，在以前的实验中发表的数据或表达谱上共表达的基因信息数据集合。而基因列表List是经过试验后得到的差异表达基因的列表。

3：既然是说GSEA的目标是对基因集S是否倾向于出现在列表L的顶端或底端，进而确定表型区分情况，那么是如何实现的呢？
3.1：计算富集得分（Enrichment Score简称ES）
对排序后的基因列表，每遇到一个基因集S中有的基因，则增加其分值，如果遇到一个非基因集S的基因则降低其分值。在原文献中有说根据running-sum statistic和weighted Kolmogorov–Smirnov-like statistic 进行统计计算（统计学不到位，恳请大神可以科普了）。从网上找了一张图：

图一：ES的计算方法

简单来说一下这个图，其中Rank List是经过排序后得到的基因列表L，排序原则就是FC，FC是Foldchange即表达的差异倍数。S指的是功能基因集S，红色表示的是Hit说明这个基因List在基因集S里面，如果在，就加分，如果是蓝色，表示这个基因不在，就减去相应的分数。所以在整个扫描过程中，ES是一个动态的值。最终ES值的确定是将杂交数据排序序列所在位置定义为0，ES值定义为距离排序序列的最大偏差。

3.2：评估ES的显著性（通过计算p值）
评估富集得分(ES)的显著性。显著性是通过置换检验 (permutation test)的方法来进行检验的。具体过程是，我们转换不同分数下的数据，并且再一次计算ES值，使之形成一个新的假设的ES分布，如果交换之后，ES的p值相对于新的ES值（统计分布）来说若是显著的变化，则说明该基因集会有生物学意义。
3.3：多重假设检验
多重假设检验校正。当评估了所有基因的数据之后，我们要使用多重假设检验来评估它们的显著性。首先把每一个基因的ES值根据基因集的大小进行标准化，得到Normalized Enrichment Score（NES），之后针对NES计算FDR（ false discovery rate），FDR是评估一个NES表达值中所发现的假阳性可能性大小；它是由NES的观测值和零分布时比较得出的。在大多数情况下，选择FDR值为25%来判定是否是富集的功能基因集是合适的，因为通常用于分析的芯片表达数据之间。但是，当分析的芯片数据集较小，分析时选择的是探针间的随机组合（gene-setper-mutation）选择FDR小于5%合适
（PS：之前作者们采取过，family - wise-error rate (FWER)来校正多个假设测试。FWER是一种保守校正，旨在确保报告的结果列表中不包含任何一个假阳性基因集。结果证明，该标准过于保守，以至于许多应用程序都没有产生统计上显著的结果，所以后续用了FDR）
3.3：关注领头亚基（leading edge subset）
此外还有一个领头亚集（leading edge subset），领头亚集中的基因是指对ES值贡献最大的基因集合。当ES为正值时，领头亚集位于ES值对应排序序列之前，反之，则位于ES值对应排序序列之后。
3.3.1：领头亚集的出现说明一方面这些基因在通路中有富集，非散在分布，另一方面，说明这些基因在通路中有共同的表达趋势。
3.3.2：在ES图中出现领头亚集的形状的，表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。如果是尾部的话，也可以关注，其实它们就和A,B class非常相关。

图二：ES图

在原文中，作者进行了很多的检验比较，如不同肺癌，白血病，糖尿病的数据比较得到了不错的结果，接下来一篇笔记就会关注GSEA的实战分析了。

Reference:
1：Subramanian, A., et al. (2005). "Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles." Proceedings of the National Academy of Sciences 102(43): 15545-15550.
2：冯春琼, 邹亚光, 周其赵,等. GSEA在全基因组表达谱芯片数据分析中的应用[J]. 现代生物医学进展, 2009, 9(13):2553-2557.
3：GSEA分析是个什么鬼（上）https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=1&srcid=0816ADpKId3sPzgbYfubrFCf#rd
4：GSEA学习笔记 https://mp.weixin.qq.com/s/Z9EOabIyHlT630c_yAC0vg

作者：liu_ll
链接：https://www.jianshu.com/p/d66aa357d597
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。