打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
小L生信学习日记-3丨原始数据质量如何判断?-上

小L生信日记

嗨,大家好,我是小L。

小L又来啦~上次已经学过了“生信必知背景知识”,这次就要开始进行数据分析。

先了解一下我们分析的数据是怎么来的,二代测序的流程可以简单总结为:核酸抽提——文库构建——测序——数据分析,而我们分析的对象就是“测序”获得的下机数据。

但是,测序下机得到的原始数据怎么样?是否合格?是否能够进行后续分析?

我们要通过质量评估(Quality Control,QC)来查看原始reads的质量,常用的工具就是FastQC(网址:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/),下载之后按照提示安装即可。

 

软件对原始数据质检完成之后,会自动保存在文件夹内。直接打开HTML格式的结果报告,左侧会显示出内容质检内容总览:

结果分为:绿色表示“PASS(通过)”,红色表示“FAIL(未通过)”,黄色表示“WARN(警告,不太好)”

 

接下来的内容,小L记录的比较详细,因为小L觉得这样的方式便于理解,也适合回看,方便查找。

当然,如果只想学会看懂图形好坏的话,可以忽略“横纵坐标及解释”,直接看“图形判断”。图形判断部分内容也分为两部分:一个是软件系统判断标准,这个了解即可;第二部分比较常用,给出了简单判断图形好坏的标准,并给出了反例。

 

1.Basic Statistics(基本统计信息)

basic statistics会显示出原始数据的一些基本信息:文件名称、文件类型、编码方式(测序平台)、序列总数量、标记为低质量的序列数、序列长度、GC含量。(大家可以记住图中红框内的信息,后面的讲解有引用。)

对于基本信息,没有什么好判断的,所以Basic Statistics从不提出警告。

 

2.Per base sequence quality

(单碱基序列质量)

横轴:序列上各位置的碱基(1-150,共150个碱基)

纵轴:碱基质量(quality),以质量分数(Quality score)作为量度。Quality score =-10log10p,p为错误率

解释:上图表示,对该文件中的29409041条序列上每个位置的碱基进行质量检测,得到各个位置碱基的质量情况。对于每个位置,绘制BoxWhisker图,主要参数如下:

红色横线:中位数

蓝色折线:平均数的连线

亮黄色方框:四分位25~75%的区间

黑色横线触须:10-90%区间

    

图形判断: 

  • 若任一位置的下四分位线(黄色区间底端)低于10或中位数低于25,报“WARN(黄色)”;若任一位置的下四分位线(黄色区间底端)低于5或中位数低于20,报“FAIL(红色)”

  • 三色背景图按照质量分数分为三部分:绿色(碱基质量很好)、黄色(碱基质量一般)、红色(碱基质量差)。碱基的质量越高越好,一般要求纵坐标不低于20,即红色背景区域没有图形,比如上图。下图是一个反例:

 

3.per tile sequence quality

横轴:测序序列上150个碱基的位置

纵轴:测序小孔

解释:这一模块是检查在测序平台上,reads中每一个碱基位置在不同的测序小孔之间的偏离度,偏离度越高,碱基质量越差。

图中的tile是什么?这个说来话长,不如不讲。我们只需要了解它是Illumina测序设备中flow cell的一部分,通过查看per tile的质量得分,可以查看是否仅与flow cell的一部分相关联的质量损失。

图片判断

  • 系统判断:偏离度小于平均值2以上报"WARN(黄色,!)",偏离度小于平均值5以上报"FAIL(红色,X)"。

  • 图中颜色是从冷到热的比例,蓝色表示低于平均偏离度, 越红则说明偏离平均质量方差越多,也就是说质量越差。比较好的情况是像上图一样一片蓝色。下图是一个反例:

4.Per sequence quality scores

序列质量统计

横轴:序列的质量分数,Quality score = -10log10p,p为错误率,p为一条reads在某个位置出错的概率,当p为1%时,Q值=20。

纵轴:reads数目

解释:该图表示序列质量的分布情况,即有xx(纵坐标)条reads的质量分数(Q值)为xx(横坐标)。

图形判断

  • 软件会自行判断:当峰值小于27(错误率0.2%)时报 "WARN(黄色,!)",当峰值小于20(错误率1%)时报" FAIL(红色,X)"。

  • 一般情况下,90%的reads测序质量(Q值)在35分以上,就认为测序质量非常好。如上图,序列集中在最右端Q值较大的区域。下图是一个反例:中间有起峰,说明有一定量序列的Q值小于20。

 

5.Per base sequence content

碱基比例分布

横轴:序列上150个碱基的位置(1-150bp)

纵轴:ATCG四种碱基在每个位置上的含量百分比

解释:不同的碱基分别用不同的颜色表示。对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:理论上,如果建库足够均匀,reads的每个位置应当是没有差异的,A=T , C=G,且整个测序过程中稳定不变,四条线平行于X轴,反映样品(基因组、转录组等)的GC含量。但实际上,测序仪刚开始测序时状态不稳定,常会出现前几个碱基有较大波动的情况(如上图)。这种情况下,一般要去掉开头部分的序列信息。

图形判断:

  • 软件判定标准:当任一位置的GC含量偏离均值的5%时,报"WARN";当任一位置的GC含量偏离均值的10%时,报 "FAIL"。

  • 比较好的图形是:A=T , C=G,且四条线平行于x轴。实际情况中,reads开头部分常会出现较大波动,软件一般都会判“WARN/FAIL”。

在 reads 开头出现碱基组成偏离往往是我们的建库操作造成的,比如建 GBS 文库时在 reads 开头加了 barcode;barcode 的碱基组成不是均一的,酶切位点的碱基组成是固定不变的,这样会造成明显的碱基组成偏离;在 reads 结尾出现的碱基组成偏离,往往是测序接头的污染造成的。

上图的前段情况不算特别好,但从第15个碱基开始,A=T , C=G,四条线平行于X轴,配合其他部分比较不错的结果,可以进行后续分析。下图是一个反例:A≠T ,四条线也不是平行于X轴的直线。

上面只放了质控内容的第五部分,剩下还有六部分放到下期里面讲。

(因为内容太长的话,你们也不爱看) 

除了质控内容的剩余部分,下一期小L还会请生信部的小哥哥回复两个常会遇到的问题。请期待!

什么问题?下期见吧。

拜拜~ 新年快乐!

 

 

小L

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
lncRNA组装流程的软件介绍之FastQC
fastqc质控报告查看
FastqC结果简介
NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC
NGS测序数据的质量控制 (Quality Control,QC)
FastQC评估测序数据的质量
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服