打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
lncRNA组装流程的软件介绍之FastQC

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

拿到原始数据后我们首先采用fastqc程序进行质控,看原始数据质量情况,fastqc会生成一个html结果报告,根据图形化界面,我们可以判断下机数据情况是否符合分析要求。

FastQC的官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

一、软件安装

使用conda安装

conda install fastqc

二、fastqc的用法

安装完成以后,可以使用fastqc -h来查看软件的帮助文档。

1. 软件用法:

image-20210502172118975

2. 常用参数:

-o --outdir 输出目录,需自己创建目录

-f 指定输入文件的类型,支持fastq|bam|sam三种格式的文件,默认自动识别。

-t --threads选择程序运行的线程数,即同时处理的文件数目。

-c --contaminants,污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到。

三、软件运行命令

fastqc -t 6 -o ./02.fastqc/  ./01.raw_data/*fastq.gz 

命令参数解读:

-t 6 # 设置线程数为6
-o ./02.fastqc/ # 指定输出文件夹为./02.fastqc/
./01.raw_data/*fastq.gz  # 输入文件,01.raw_data文件夹下所有的以.fastq.gz 结尾的测序原始数据文件

四、结果解读

FastQC会对每⼀个输入的fastq.gz⽂件生成1个html⽹页和⼀个zip的压缩包。压缩包⾥是⽹⻚中包含的图⽚信息,因此我们只需要看⽹页⾥里里⾯面整理理好的内容就好。

FastQC有3种结果:绿色代表PASS;黄色代表WARN;红色代表FAIL。当出现黄色时说明需要查看结果。当然,我这里没有黄色的结果。

1.Basic Statistics

Basic statistics是该fastq一些基本信息,主要有

Filename:文件名

File type: 文件类型

Encoding:测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用

Total Sequences: 输入文本的reads的数量

Sequences flagged as poor quality:标记为差的碱基序列

Sequence length: 测序长度

%GC: GC含量,表示整体序列的GC含量,由于二代测序GC偏好性高,且深度越高,GC含量会越高,一般有物种特异性。

2.Per base sequence quality

图中的横坐标表示什么意思?

横轴为read长度,例如:测序列第1个碱基到第150个碱基

图中的纵坐标表示什么意思?

纵坐标表示每一bp所对应的测序质量值,
将该碱基判断错误概率值P取log10之后再乘以-10,
得到的结果再加上pherd值对应ASCII表所得到的值就是该碱基测序的质量量值;
Q = -10*log10(error P)
即20表示1%的错误率,30表示0.1%的错误率;

图中的蓝色线是什什么意思?

蓝⾊的细线是各个位置的质量值的平均值的连线;

图中的box 下面的bar , 上面的bar,箱体的下沿,箱体的上沿,箱体内部的横线分别代表什么意思?

每1个boxplot,都是该位置的所有序列列的测序质量量的⼀个统计,
上⾯面的bar是90%分位数;
下⾯面的bar是10%分位数;
箱⼦子的中间的横线是50%分位数;
箱体上缘是75%分位数;
箱体下缘是25%分位数;

3.Per sequence quality scores

横轴表示Q值,纵轴表示每个值对应的read数目,当测序结果主要集中在高分中,证明测序质量良好。

4.Per base sequence content

横坐标是什什么意思?纵坐标是什什么意思?

横轴代表1到150bp;纵轴代表ATCG在该bp的百分比。

为什么前⾯面的几bp线是波动的?后⾯面的线是平衡的?

根据Wason-Crick配对原则,A和T应该相等,G和C应该相等;
但是一般测序的时候,刚开始测序仪状态不不稳定,很可能出现不不平衡的情况。
像这种情况,
如果测序的得分很高,可以不进行trim开始部分的序列列信息;
如果测序得分很低,需要进行trim开始部分的序列列信息。


当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"

5.Per sequence GC content

横轴表示GC含量,纵轴表示不同GC含量对应的read数;

蓝线是理论分布(正态分布,通过从所测数据计算并构建理论分布),红色是实际情况,两个比较接近判为好的。

曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;

如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"

6.Per base N content

当出现测序仪不能分辨的碱基时会产生N,横轴为碱基分布,纵轴为N比率,当任一位置N的比率超过5%报WARN,超过20%报FAIL。我这里几乎没有。

7.Sequence Length Distribution

理论上每次测序仪测出的read长度是一致的,但是由于建库等因素通常会导致一些小片段,如果报FAIL,表明此次测序过程中产生的数据不可信。

8.Sequence Duplication Levels

统计序列完全一致的reads的频率,横轴表示重复水平,纵轴表示重复⽔平序列列占所有序列的百分比。一般测序深度越高,越容易产生一定程度的重复序列。    

duplicate是全部序列列的duplicate的情况吗?还是随机筛选了一部分?为什什么要这样做?

是选择的每一个⽂文件里前100,000条序列作为样本进行的计算,因为样本本身很⼤,前100,000已经能够代表样
本的重复性。

9.Overrepresented sequences

当有某个序列大量出现时,超过总reads数的0.1%时报WARN,超过1%时报FAIL。

10.Adapter Content

横轴表示碱基位置,纵轴表示百分比。当fastqc分析时没有选择参数-a adapter list时,默认使用图例中的4种通用adapter序列进行统计。若有adapter残留,后续必须去接头。

11.Per tile sequence quality

每个tail测序情况,横轴表示碱基位置,纵轴表示tail的index编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析种把该tail测序结果全部去除。

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
小L生信学习日记-4丨原始数据质量如何判断?-下
NGS数据分析实践:05. 测序数据的基本质控 [1] - FastQC
NGS测序数据的质量控制 (Quality Control,QC)
fastqc质控报告查看
FastqC结果简介
FastQC评估测序数据的质量
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服