测序质控是我们拿到测序数据后第一时间要做的事情。
高质量的测序数据对我们后续工作的质量提供了保证。
fastqc提供可视化的质控报告,通过三种颜色来标注测序质量,绿色:完全正常,橙色:略有异常,红色:异常
原则上,全部为绿色的报告代表测序质量合格。然而事实上,实际产生的测序数据报告不会是全部绿色的,那么报告为什么会异常?何种异常我们需要重新测序,何种异常我们可以忽略不计呢?
在本文中,我们将质控报告分段式依次进行解说,并标记关注程度,以及出现异常后的处理方法。
1)Per base sequence quality (很重要,重点关注!)
横轴为read位置,纵轴是质量值quality,质量值越高,代表质量越好
碱基质量很好 (绿色)、碱基质量一般(黄色) 以及碱基质量差 (红色)。
像这样的图,基本都在绿色区域,代表测序质量很好
像下面这样的图,很快就进入红色区域,代表测序质量不好。建议重新测序,或者将低质量序列切除后再继续后续分析。
2) Per Tile sequence quality (不重要,可略过)
一般是这样蓝汪汪的一片,代表比较好。
3)Per sequence quality score (一般重要)
横轴为测序质量值,纵轴为 reads 数量;峰值越靠右,代表越好;如出现双峰,或者峰值比较靠左,代表有异常,即测序中存在一定比例的低质量位点。
4)Per Base Sequence Content (不重要,可略过)
这步是fastqc报告中经常黄色甚至红色报错的部分,但实际报警不一定代表质量不合格,需要分别对待。
这部分示意图横坐标是指碱基位置,纵坐标是该位置上ATCG碱基的比例。理论上,一个完美的文库,其ATCG是应该随机存在的,即图中的四条颜色的线应为互相接近的四条平行线。然而实际上的质控结果经常如上图所示,存在ATCG的波动。
如整条片段存在波动,这种情况一般出现在扩增子测序中,属于正常情况(虽然报告中标黄或红色),这是因为扩增的片段,如16S本身就具有一定的GC特点,并非完全随机。
如开头片段出现波动,这种情况一般出现在基于转座酶或内切酶的建库方法的测序数据中。这是因为酶的识别区域存在一定的偏好性,所以开头10bp左右并非ATCG随机出现。这种情况属于正常,即使是有黄色或红色报错也一般无需额外处理。
如结尾片段出现波动,可能是接头没有去除干净,建议采用生信的方法去除这部分序列。
5)Per Sequence GC Content (很重要)
这一步虽然统计的只是每条序列的GC含量的分布,但我们可以用它来评估样本中的污染情况。
对于一个正常的菌基因组文库,其GC含量分布应该接近正态分布,在图中应该是个单峰。但在实际的测序过程中,常常会发现双峰的情况,则说明文库有污染(有杂菌,或者核酸污染,或者文库污染)。
因此,如此部分报错,需要高度警惕,回查可能的原因。如为污染,需重新提取核酸后建库测序。
6)Perbase N Content(不重要)
每个位置上N的比例。
不重要。一般不会报错,或报错影响不大。
7)Sequence Length Distribution (不重要)
read长度分布。对于下机原始数据就应该是上机时设置的read 长度。此部分一般不会报错,或报错影响不大。
8)Sequence Duplication Level (一般重要)
测序read中重复序列出现的情况。
理论上,一个完美的文库应该都是unique read或duplicate很少。但,实际上考虑到二代建库过程中PCR步骤的存在,文库中存在duplication 序列无法避免。且这部分数据可后续通过生信的方法很容易去除。
因此,即使报错,对结果影响不大。
因此此部分评估结果,可以作为对文库质量控制的指标,但不用过于纠结要求必须通过。
9)Overrepresented sequences(一般重要)
显示超过0.1% 总read数的序列。对于基因组测序和宏基因组测序,正常文库内都不应该有一条序列这么高的丰度,如出现则说明可能有异常。
对于扩增子测序,出现结果则属于正常。
10)Adaptor content(一般重要)
接头含量。正常的测序结果接头应该都被自动去除了,如此步还存在一定的接头序列,则说明未去除干净,可采用生物信息方法重新去除。
简单的小结一下,虽然fastqc报告很长,对多个环节开展了质控,但其实我们并不需要追求完美,只要重点关注
Basic Statistics (基本信息统计)、Per base sequence quality(碱基质控图)、Sequence GC Content(GC分布图,用于评估污染)这三个部分。
此外,再一般关注下Sequence Duplication Level、Overrepresented sequences等4个部分就足够了。
其余的几个环节,如有报错,具体情况具体分析,但个人认为就无需强求必须全部通过了呢。
以上是笔者对于细菌基因组测序、宏基因组测序数据结果质量控制报告解读的解读。您怎么看?欢迎讨论点评~
长按关注
公众号名称:微微悦明
科学的乐趣是获得新知识的喜悦~
高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享
联系客服