转录组测序数据分析（有参考基因组）

一、数据分析流程

二、数据分析内容

1. 数据预处理

目的：对原始测序数据进行一定程度的过滤。

原理：根据测序接头以及测序质量对原始的测序数据进行预处理，其中，测序质量Q与测序错误E之间的关系如下：

结果：对预处理后质量以及碱基分布统计进行统计

2. 比对基因组

目的：将经过预处理的测序数据与参考基因组进行相似性比对。

原理：Burrower-Wheeler转换算法与splicing比对算法。

1）Burrower-Wheeler转换算法：由于测序数据量非常大，与整条基因组比对所需资源与时间是较为巨大的。目前，我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程，这样可以很大程度上加快比对速度，减少比对过程中所需资源。

2）splicing比对算法：即分段比对算法，当某条测序序列位于转录本剪切位点时，也就是这条序列同时属于两个外显子，如果将它与参考基因组进行比对，由于基因组两个外显子之间含有intron区，那么它将无法找到它合适的位置；但是应用分段比对算法就可以将这条测序序列分割变成多段子序列，然后应用这些段子序列与基因组进行比对，这样就可以找到它们真正的位置。

Vps28基因的一个分段比对的结果，蓝线连接的两端即为被分割的子序列，可见此种算法非常的适用于转录组测序。

结果展示：应用比对结果进行一些相关mapping统计，测序饱和度及测序5’，3’ bias统计。

Multi mapping，Unique mapping及Unique gene-body mapping统计。

饱和度分析，当reads达到一定测序量后，基因覆盖率基本达到饱和。

测序3’,5’偏好性统计，测序主要集中于基因bady区，两端偏向性较轻。

3. 基因表达水平研究

目的：应用基因组比对结果进行基因定量。

原理：从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息，通过

基因组比对结果计算出在不用区域富集片段数目，然后应用RPKM/FPKM标准化公式对富集片

段的数量进行归一化。

RPKM：Reads Per Kilobase of exon model per Million mapped reads，公式下:

FPKM：Fragments Per Kilobase of exon model per Million mapped reads，公式下:

结果展示：表达量相关性图以及表达量分布图。

样本表达相关性，通过相关系数R^2与显著性p值进行相关性检验。

基因表达分布图，1X，5X分别为FPKM=1，FPKM=5分界点，可以大体观察到低表达，中表达以及高表达的比例关系。

样本间表达基因关系饼图，可以看出共同表达以及独有表达的概况。

4. 差异表达分析

目的：应用统计学方法对基因在样本间的表达差异进行分析。

原理：双层过滤筛选差异基因。

FC值筛选：采用Fold-change(FC)，表达差异倍数进行第一层此的差异基因筛选。

FDR检验：一般采用卡方检验中的fisher精确检验进行p值检验，采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验，即，通过FDR显著性参数进行第二层次的差异基因筛选。

结果展示：

组间差异基因上调与下调个数统计，可以通过此图观察上调与下调的一个总体趋势

差异基因火山图，可以观察到差异基因总体分布

5. 转录本结构分析

目的：侦测不同类型的可变剪切事件。

原理：通过测序序列的splicing事件来侦测可能发生剪切连接的候选exon，通过已有可变剪切方式进行验证，最终得出真实的可变剪切事件。

结果展示：对常见的可变剪切方式进行统计分析。

6. 新转录本预测

目的：预测antisense transcript以及intron transcript。

原理：通过测序序列在基因组上富集的方向性进行反义转录本预测，如果有富集区域方向与基因

转录本方向相反且达到一定的富集阈值，即可认为其为antisense transcript。将完全位于intron

区的一段富集片段作为intron transcript。

7. 新基因预测

目的：预测intergenic区可能存在的新基因并对新基因进行功能注释。

原理：首先，得到在基因间区有测序序列富集的一些段区域；然后，排除那些已经有注释的那些段区域作为候选的新基因。

结果展示：

新基因预测结果，给出了新基因起始、终止位置以及在样本间的表达值。

8. 基因融合分析

目的：寻找可能发生融合功能的基因

原理：通过测序片段的splicing事件以及pair-end测序的距离信息进行基因融合位点的定位，如

果一个测序片段的一个子片段与geneA匹配，另一个子片段与geneB匹配，那么geneA与geneB

有可能为一个融合基因，而当pair-end双向测序时，一对测序片段中一个与geneA匹配，另一

个与geneB匹配，那么geneA与geneB有可能为一个融合基因。如果同时满足两个条件，那

么融合发生的可能性就较大。

结果展示：

9. GO富集分析

目的：对差异基因相关GO功能进行富集分析。

显著富集GO功能图形统计

10. KEGG富集分析

目的：对差异基因进行KEGG通路富集分析。

原理：应用物种自己的KEGG pathway进行富集分析，富集结果更加贴近物种现实功能实现的通路，尤其对目前功能注释尚不完全的物种，如，大豆、玉米、葡萄、杨树、白菜、牛、羊等物种的KEGG通路分析。

有显著富集功能KEGG通路图，其中，红色标记为差异基因

11. cSNV查找

目的：在转录水平找出变异位点或者片段。

原理：通过测序数据得到基因组每个位点的碱基富集情况；然后，统计每个点富集富集的碱基种

类，得出可能存在的变异(即，与参考基因组碱基不同且富集程度较高的碱基类别)。

结果展示：

12. LncRNA预测

目的：对新转录本进行LncRNA(Long noncoding RNA) 预测。

原理：通过以下过程对新转录本进行过滤，最终得到候选LncRNA序列：

1) 通过基因组比对得到4类新转录本：Intergenic transcript、Full intron transcript、Antisense transcript、Overlapped with known transcript，将这些新转录本用于LncRNA预测；

2) New Transcript length > 200bp；

3) New Transcript ORF(Open Reading Frame) length < 300；

4) 将满足长度条件的New Transcript与多个近源物种进行进化分析，得到序列的保守性和进化关系；

5) 根据上述的特性以及已知数据库中coding、noncoding区域的特性建立编码筛选模型；

6) 将符合noncoding模型的New Transcript与Pfam等蛋白域数据库进行同源性比对，进一步去除可能的编码特性，最终得出LncRNA预测结果。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。