打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
lncRNA组装流程的软件介绍之trim-galore

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

Trim Galore是对FastQC和Cutadapt的包装。适用于所有高通量测序,包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步:首先去除低质量碱基,然后去除3' 末端的adapter, 如果没有指定具体的adapter,程序会自动检测前1million的序列,然后对比前12-13bp的序列是否符合以下类型的adapter

一、软件安装

使用conda安装

conda install trim-galore

二、trim-galore的用法

安装完成以后,可以使用trim_galore -help来查看软件的帮助文档。

1. 软件用法:

2. 常用参数:

--quality:设定Phred quality score阈值,默认为20。分析时可改成25,稍微严格一些。

--phred33::选择-phred33或者-phred64,表示测序平台使用的Phred quality score。具体怎么选择,看你用什么测序平台;例如:-phred33对应(Sanger/Illumina 1.9+ encoding),-phred64对应(Illumina 1.5 encoding)

--adapter:输入adapter序列。也可以不输入,Trim Galore!会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个,也直接显式输入这三种平台,即--illumina、--nextera和--small_rna。

--stringency:设定可以忍受的前后adapter重叠的碱基数,默认为1(非常苛刻)。可以适度放宽,因为后一个adapter几乎不可能被测序仪读到。

--length:设定输出reads长度阈值,小于设定值会被抛弃。

--paired:对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。

--retain_unpaired:对于双端测序结果,一对reads中,如果一个read达到标准,但是对应的另一个要被抛弃,达到标准的read会被单独保存为一个文件。

--gzip和--dont_gzip:清洗后的数据zip打包或者不打包。

--output_dir:输入目录。需要提前建立目录,否则运行会报错。

--trim-n : 移除read一端的reads

三、软件运行命令

##双端数据要指定 --paired
nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./ $fq1 $fq2 &

批量运行脚本

cd 03.trim
ls /home/data/lihe/lncRNA_project/01.raw_data/*_1.fastq.gz > 1
ls /home/data/lihe/lncRNA_project/01.raw_data/*_2.fastq.gz > 2
paste 1 2 > config

cat > 03.trim.sh
config=$1
number1=$2
number2=$3
cat $1 | while read id
do
    if((i%$number1==$number2))
    then
    arr=(${id})
    fq1=${arr[0]}
    fq2=${arr[1]}
    trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./  $fq1 $fq2
    fi    ## end for number1
    i=$((i+1))
done


for i  in {0..9}
do 
(nohup bash 03.trim.sh  config 10 $i 1>log.$i.txt 2>&1 & )
done 

命令参数解读:

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

--length 35 # 输出reads长度阈值,小于35bp的reads会被抛弃

--stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

--paired # 对于双端测序结果,一对reads中,如果有一个被剔除,那么另一个会被同样抛弃,而不管是否达到标准。

./ $fq1 $fq2 输入文件

四、输出文件解读

fq.gz格式文件是处理后得到的数据,txt格式文件是样品处理的结果报告,也包括软件运行的参数信息。下面是其中一个的结果。
SUMMARISING RUN PARAMETERS
==========================
Input filename: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.6
Cutadapt version: 3.2
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Using Illumina adapter for trimming (count: 11117). Second best hit was smallRNA (count: 13)
Adapter sequence: 'AGATCGGAAGAGC' (Illumina TruSeq, Sanger iPCR; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 4 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 35 bp
Output file will be GZIP compressed


This is cutadapt 3.2 with Python 3.8.5
Command line parameters: -j 1 -e 0.1 -q 25 -O 4 -a AGATCGGAAGAGC /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 1503.33 s (26 ?s/read; 2.31 M reads/minute).

=== Summary ===

Total reads processed:              57,950,521
Reads with adapters:                 1,303,446 (2.2%)
Reads written (passing filters):    57,950,521 (100.0%)

Total basepairs processed: 8,692,578,150 bp
Quality-trimmed:              42,494,919 bp (0.5%)
Total written (filtered):  8,627,614,520 bp (99.3%)

=== Adapter 1 ===

Sequence: AGATCGGAAGAGC; Type: regular 3'; Length: 13; Trimmed: 1303446 times

No. of allowed errors:
1-9 bp: 0; 10-13 bp: 1

Bases preceding removed adapters:
  A: 18.4%
  C: 32.3%
  G: 34.4%
  T: 14.9%
  none/other: 0.0%

Overview of removed sequences
length  count   expect  max.err error counts
4       281681  226369.2        0       281681
5       88526   56592.3 0       88526
6       45429   14148.1 0       45429
7       40879   3537.0  0       40879
8       38695   884.3   0       38695
9       37360   221.1   0       36428 932

RUN STATISTICS FOR INPUT FILE: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
=============================================
57950521 sequences processed in total

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
使用trim_galore对NGS数据进行质量过滤
SMARTer smRNA-Seq Kit for Illumina User Manual_040816
九月学徒转录组学习成果展(3万字总结)(上篇)
从零开始完整学习全基因组测序(WGS)数据分析:第3节 数据质控 | Public Library of Bioinformatics
使用bowtie2去除宿主序列
NGS 数据过滤之 Trimmomatic 详细说明
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服