打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
fastqc质控报告查看

1.Summary

为保证下游分析输入数据的可靠性,需要对下机的原始测序数据进行质控。通常我们会使用FASTQC软件对测序数据进行质控fastqC会生成一个html的结果报告,下面是软件对质控结果进行判断:绿色代表PASS;黄色代表WARN;红色代表FAIL(当出现黄色时说明需要查看结果)。

fastq文件了解,可观看课程:https://study.163.com/course/courseMain.htm?share=2&shareId=400000000234009&courseId=1005231058

2.Basic Statistics


Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号

Total Sequences: total reads的数量

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高。

3.Per base sequence quality:碱基质量统计

所有reads碱基的测序质量统计结果。箱线图中红色线表示中位数,黄色是25%-75%区间,延伸线是10%-90%区间,蓝线是平均数曲线。若任一位置碱基的下四分位数低于10或中位数低于25,报'WARN'若任一位置的下四分位数低于5或中位数低于20,报'FAIL'

4.Per tile sequence quality

流通池中不同芯片(tile)的碱基测序质量平均值对比,显示了测序仪的系统差错。热图中蓝色部分是质量较好的点,红色越明显则是测序质量越低。纵坐标为tile编号,如果某tile的测序质量很低,可以考虑去除该tile的序列数据。

5.Per sequence quality scores

每条read的碱基质量均值的统计结果。横轴为测序质量quality,纵轴是read数目。从图中可以容易得看出不同质量范围内的read数量。其中当峰值也即最大read质量小于27(错误率0.2%)时报'WARN',当峰值小于20(错误率1%)时报'FAIL'

6.Per base sequence content

对所有reads的每一个位置,统计ATCG四种碱基(正常情况)比例的分布情况。横轴为碱基位置,纵轴为百分比。正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresentedsequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias(建库过程或本身特点),或者是测序中的系统误差。当任一位置的A/T比例与G/C比例相差超过10%,报'WARN'当任一位置的A/T比例与G/C比例相差超过20%,报'FAIL'

7.Per sequence GC content

统计reads的平均GC含量的分布。横轴为GC比例,纵轴为reads数量。红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresentedreads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时,报'WARN'偏离理论分布的reads超过30%时,报'FAIL'

8.Per base N content

正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。Y轴在0%-100%的范围内也能看到凸起时,说明测序系统出了问题。当任意位置的N的比例超过5%,报'WARN'当任意位置的N的比例超过20%,报'FAIL'

9.Sequence Length Distribution

统计reads长度的分布。横轴为片段长度,纵轴为read数量。reads长度不一致时报'WARN'当有长度为0read时报'FAIL'

10.Sequence Duplication Levels

统计序列的重复度(duplication level,也即一个文库中某条序列的copy数),理论上大部分序列都只出现一次,低的重复度意味着高的基因组覆盖率。测序深度越高,越容易产生一定程度的重复,这是正常的现象;但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。可以想象,如果原始数据很大(事实往往如此),对所有序列的比较将会需要很大内存,所以FastQC只用前100,000reads来进行统计,以反映全部数据中序列重复度情况。而且,大于75bpreads只取前50bp进行比较,由于reads越长越不容易完全相同(由测序错误导致),所以这样做使得重复度的统计更加严格。序列duplication level分布图将会展示文库中不同重复度的序列所占比例,其中横坐标是duplication levels,纵坐标是duplicated reads的比例。图中蓝色线展示了全部序列中不同重复度序列的百分比,红线显示的是有重复序列中不同重复度序列的百分比(所有序列的重复度减去1)。

由于展示范围的限制,重复数目大于等于10reads会被按照区间合并统计,造成在duplicationlevel10的时候曲线突然凸起,结果如下所示:

当非unique(也即duplication level大于1)的reads占总数的比例大于20%时,报'WARN'当非uniquereads占总数的比例大于50%时,报'FAIL'

11.Overrepresented sequences

如果有某个序列大量出现,就叫做over-representedFastQC的标准是占全部reads0.1%以上。和上面的duplicate analysis一样,为了计算方便,只取了fastq数据的前100,000reads进行统计,所以有可能over-represented reads不全在里面。而且大于75bpreads也是只取50bp统计结果以列表形式展示,当发现超过总reads0.1%reads时报'WARN',当发现超过总reads1%reads时报'FAIL'

12.Adapter Content

统计接头序列的含量。一般测序仪自带软件会切去接头序列,所以下机数据并没有接头序列。

测序数据分析相关课程:转录组数据分析重测序数据分析

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
FASTQC结果解读 | miRNA专栏
转录组学习三(数据质控)
Multiqc(转录组分析之质量评估)
lncRNA组装流程的软件介绍之MultiQC
RNA-seq从过滤低质量到去接头完整质控步骤
用FastQC检查二代测序原始数据的质量
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服