打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
为什么我的测序质控会报错!?

测序质控是我们拿到测序数据后第一时间要做的事情。

高质量的测序数据对我们后续工作的质量提供了保证。

fastqc提供可视化的质控报告,通过三种颜色来标注测序质量,绿色:完全正常,橙色:略有异常,红色:异常

原则上,全部为绿色的报告代表测序质量合格。然而事实上,实际产生的测序数据报告不会是全部绿色的,那么报告为什么会异常?何种异常我们需要重新测序,何种异常我们可以忽略不计呢?

在本文中,我们将质控报告分段式依次进行解说,并标记关注程度,以及出现异常后的处理方法。

1)Per base sequence quality (很重要,重点关注!)

横轴为read位置,纵轴是质量值quality,质量值越高,代表质量越好

碱基质量很好 (绿色)、碱基质量一般(黄色) 以及碱基质量差 (红色)。

像这样的图,基本都在绿色区域,代表测序质量很好


像下面这样的图,很快就进入红色区域,代表测序质量不好。建议重新测序,或者将低质量序列切除后再继续后续分析。

2) Per Tile sequence quality (不重要,可略过)

一般是这样蓝汪汪的一片,代表比较好。

3)Per sequence quality score (一般重要)

横轴为测序质量值,纵轴为 reads 数量;峰值越靠右,代表越好;如出现双峰,或者峰值比较靠左,代表有异常,即测序中存在一定比例的低质量位点。

4)Per Base Sequence Content (不重要,可略过)

这步是fastqc报告中经常黄色甚至红色报错的部分,但实际报警不一定代表质量不合格,需要分别对待。

这部分示意图横坐标是指碱基位置,纵坐标是该位置上ATCG碱基的比例。理论上,一个完美的文库,其ATCG是应该随机存在的,即图中的四条颜色的线应为互相接近的四条平行线。然而实际上的质控结果经常如上图所示,存在ATCG的波动。

如整条片段存在波动,这种情况一般出现在扩增子测序中,属于正常情况(虽然报告中标黄或红色),这是因为扩增的片段,如16S本身就具有一定的GC特点,并非完全随机。

如开头片段出现波动,这种情况一般出现在基于转座酶或内切酶的建库方法的测序数据中。这是因为酶的识别区域存在一定的偏好性,所以开头10bp左右并非ATCG随机出现。这种情况属于正常,即使是有黄色或红色报错也一般无需额外处理。

如结尾片段出现波动,可能是接头没有去除干净,建议采用生信的方法去除这部分序列。

5)Per Sequence GC Content (很重要)

这一步虽然统计的只是每条序列的GC含量的分布,但我们可以用它来评估样本中的污染情况。

对于一个正常的菌基因组文库,其GC含量分布应该接近正态分布,在图中应该是个单峰。但在实际的测序过程中,常常会发现双峰的情况,则说明文库有污染(有杂菌,或者核酸污染,或者文库污染)。

因此,如此部分报错,需要高度警惕,回查可能的原因。如为污染,需重新提取核酸后建库测序。

6)Perbase N Content(不重要)

每个位置上N的比例。

不重要。一般不会报错,或报错影响不大。

7)Sequence Length Distribution (不重要)

read长度分布。对于下机原始数据就应该是上机时设置的read 长度。此部分一般不会报错,或报错影响不大。

8)Sequence Duplication Level (一般重要)

测序read中重复序列出现的情况。

理论上,一个完美的文库应该都是unique read或duplicate很少。但,实际上考虑到二代建库过程中PCR步骤的存在,文库中存在duplication 序列无法避免。且这部分数据可后续通过生信的方法很容易去除。

因此,即使报错,对结果影响不大。

因此此部分评估结果,可以作为对文库质量控制的指标,但不用过于纠结要求必须通过。

9)Overrepresented sequences(一般重要)

显示超过0.1% 总read数的序列。对于基因组测序和宏基因组测序,正常文库内都不应该有一条序列这么高的丰度,如出现则说明可能有异常。

对于扩增子测序,出现结果则属于正常。

10)Adaptor content(一般重要)

接头含量。正常的测序结果接头应该都被自动去除了,如此步还存在一定的接头序列,则说明未去除干净,可采用生物信息方法重新去除。

简单的小结一下,虽然fastqc报告很长,对多个环节开展了质控,但其实我们并不需要追求完美,只要重点关注

Basic Statistics (基本信息统计)、Per base sequence quality(碱基质控图)、Sequence GC Content(GC分布图,用于评估污染)这三个部分。

此外,再一般关注下Sequence Duplication Level、Overrepresented sequences等4个部分就足够了。

其余的几个环节,如有报错,具体情况具体分析,但个人认为就无需强求必须全部通过了呢。

以上是笔者对于细菌基因组测序、宏基因组测序数据结果质量控制报告解读的解读。您怎么看?欢迎讨论点评~

长按关注




公众号名称:微微悦明

科学的乐趣是获得新知识的喜悦~

高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
FASTQC结果解读 | miRNA专栏
转录组学习三(数据质控)
fastqc质控报告查看
Multiqc(转录组分析之质量评估)
ChIP-seq数据分析课程学习笔记之 测序数据质量控制和比对
二代测序基础知识
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服