打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
转录组测序数据分析(有参考基因组)
一、数据分析流程
二、数据分析内容
1. 数据预处理
目的:对原始测序数据进行一定程度的过滤。
原理:根据测序接头以及测序质量对原始的测序数据进行预处理,其中,测序质量Q与测序错误E之间的关系如下:
结果:对预处理后质量以及碱基分布统计进行统计
2. 比对基因组
目的:将经过预处理的测序数据与参考基因组进行相似性比对。
原理:Burrower-Wheeler转换算法与splicing比对算法。
1)Burrower-Wheeler转换算法:由于测序数据量非常大,与整条基因组比对所需资源与时间是较为巨大的。目前,我们采用Burrower-Wheeler(BWT)算法对基因进行建立索引、碱基压缩等过程,这样可以很大程度上加快比对速度,减少比对过程中所需资源。
2)splicing比对算法:即分段比对算法,当某条测序序列位于转录本剪切位点时,也就是这条序列同时属于两个外显子,如果将它与参考基因组进行比对,由于基因组两个外显子之间含有intron区,那么它将无法找到它合适的位置;但是应用分段比对算法就可以将这条测序序列分割变成多段子序列,然后应用这些段子序列与基因组进行比对,这样就可以找到它们真正的位置。
Vps28基因的一个分段比对的结果,蓝线连接的两端即为被分割的子序列,可见此种算法非常的适用于转录组测序。
结果展示:应用比对结果进行一些相关mapping统计,测序饱和度及测序5’,3’ bias统计。
Multi mapping,Unique mapping及Unique gene-body mapping统计。
饱和度分析,当reads达到一定测序量后,基因覆盖率基本达到饱和。
测序3’,5’偏好性统计,测序主要集中于基因bady区,两端偏向性较轻。
3. 基因表达水平研究
目的:应用基因组比对结果进行基因定量。
原理:从指定物种基因模型(基因结构)中得到gene、exon、intron以及UTR等位置信息,通过
基因组比对结果计算出在不用区域富集片段数目,然后应用RPKM/FPKM标准化公式对富集片
段的数量进行归一化。
RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:
FPKM:Fragments Per Kilobase of exon model per Million mapped reads,公式下:
结果展示:表达量相关性图以及表达量分布图。
样本表达相关性,通过相关系数R^2与显著性p值进行相关性检验。
基因表达分布图,1X,5X分别为FPKM=1,FPKM=5分界点,可以大体观察到低表达,中表达以及高表达的比例关系。
样本间表达基因关系饼图,可以看出共同表达以及独有表达的概况。
4. 差异表达分析
目的:应用统计学方法对基因在样本间的表达差异进行分析。
原理:双层过滤筛选差异基因。
FC值筛选:采用Fold-change(FC),表达差异倍数进行第一层此的差异基因筛选。
FDR检验:一般采用卡方检验中的fisher精确检验进行p值检验,采用Benjamini FDR(False discovery ratio)校验方法对p值进行假阳性检验,即,通过FDR显著性参数进行第二层次的差异基因筛选。
结果展示:
组间差异基因上调与下调个数统计,可以通过此图观察上调与下调的一个总体趋势
差异基因火山图,可以观察到差异基因总体分布
5. 转录本结构分析
目的:侦测不同类型的可变剪切事件。
原理:通过测序序列的splicing事件来侦测可能发生剪切连接的候选exon,通过已有可变剪切方式进行验证,最终得出真实的可变剪切事件。
结果展示:对常见的可变剪切方式进行统计分析。
6. 新转录本预测
目的:预测antisense transcript以及intron transcript。
原理:通过测序序列在基因组上富集的方向性进行反义转录本预测,如果有富集区域方向与基因
转录本方向相反且达到一定的富集阈值,即可认为其为antisense transcript。将完全位于intron
区的一段富集片段作为intron transcript。
7. 新基因预测
目的:预测intergenic区可能存在的新基因并对新基因进行功能注释。
原理:首先,得到在基因间区有测序序列富集的一些段区域;然后,排除那些已经有注释的那些段区域作为候选的新基因。
结果展示:
新基因预测结果,给出了新基因起始、终止位置以及在样本间的表达值。
8. 基因融合分析
目的:寻找可能发生融合功能的基因
原理:通过测序片段的splicing事件以及pair-end测序的距离信息进行基因融合位点的定位,如
果一个测序片段的一个子片段与geneA匹配,另一个子片段与geneB匹配,那么geneA与geneB
有可能为一个融合基因,而当pair-end双向测序时,一对测序片段中一个与geneA匹配,另一
个与geneB匹配,那么geneA与geneB有可能为一个融合基因。如果同时满足两个条件,那
么融合发生的可能性就较大。
结果展示:
9. GO富集分析
目的:对差异基因相关GO功能进行富集分析。
显著富集GO功能图形统计
10. KEGG富集分析
目的:对差异基因进行KEGG通路富集分析。
原理:应用物种自己的KEGG pathway进行富集分析,富集结果更加贴近物种现实功能实现的通路,尤其对目前功能注释尚不完全的物种,如,大豆、玉米、葡萄、杨树、白菜、牛、羊等物种的KEGG通路分析。
有显著富集功能KEGG通路图,其中,红色标记为差异基因
11. cSNV查找
目的:在转录水平找出变异位点或者片段。
原理:通过测序数据得到基因组每个位点的碱基富集情况;然后,统计每个点富集富集的碱基种
类,得出可能存在的变异(即,与参考基因组碱基不同且富集程度较高的碱基类别)。
结果展示:
12. LncRNA预测
目的:对新转录本进行LncRNA(Long noncoding RNA) 预测。
原理:通过以下过程对新转录本进行过滤,最终得到候选LncRNA序列:
1) 通过基因组比对得到4类新转录本:Intergenic transcript、Full intron transcript、Antisense transcript、Overlapped with known transcript,将这些新转录本用于LncRNA预测;
2) New Transcript length > 200bp;
3) New Transcript ORF(Open Reading Frame) length < 300;
4) 将满足长度条件的New Transcript与多个近源物种进行进化分析,得到序列的保守性和进化关系;
5) 根据上述的特性以及已知数据库中coding、noncoding区域的特性建立编码筛选模型;
6) 将符合noncoding模型的New Transcript与Pfam等蛋白域数据库进行同源性比对,进一步去除可能的编码特性,最终得出LncRNA预测结果。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
贝瑞和康 | 全基因组重测序
易基因单细胞转录组测序(smart-seq2)|技术推介
转录组结果如何挖掘关键基因——你不得不知的“套路”
转录组测序如何发高分文章
转录组基本知识点
转录组文章的常规套路
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服