lncRNA组装流程的软件介绍之trim-galore

咱们《生信技能树》的B站有一个lncRNA数据分析实战，缺乏配套笔记，所以我们安排了100个lncRNA组装案例文献分享，以及这个流程会用到的100个软件的实战笔记教程！

下面是100个lncRNA组装流程的软件的笔记教程

Trim Galore是对FastQC和Cutadapt的包装。适用于所有高通量测序，包括RRBS(Reduced Representation Bisulfite-Seq ), Illumina、Nextera 和smallRNA测序平台的双端和单端数据。主要功能包括两步：首先去除低质量碱基，然后去除3' 末端的adapter, 如果没有指定具体的adapter，程序会自动检测前1million的序列，然后对比前12-13bp的序列是否符合以下类型的adapter

一、软件安装

使用conda安装

conda install trim-galore

二、trim-galore的用法

安装完成以后，可以使用trim_galore -help来查看软件的帮助文档。

1. 软件用法：

2. 常用参数：

--quality：设定Phred quality score阈值，默认为20。分析时可改成25，稍微严格一些。

--phred33：：选择-phred33或者-phred64，表示测序平台使用的Phred quality score。具体怎么选择，看你用什么测序平台；例如：-phred33对应(Sanger/Illumina 1.9+ encoding)，-phred64对应(Illumina 1.5 encoding)

--adapter：输入adapter序列。也可以不输入，Trim Galore!会自动寻找可能性最高的平台对应的adapter。自动搜选的平台三个，也直接显式输入这三种平台，即--illumina、--nextera和--small_rna。

--stringency：设定可以忍受的前后adapter重叠的碱基数，默认为1（非常苛刻）。可以适度放宽，因为后一个adapter几乎不可能被测序仪读到。

--length：设定输出reads长度阈值，小于设定值会被抛弃。

--paired：对于双端测序结果，一对reads中，如果有一个被剔除，那么另一个会被同样抛弃，而不管是否达到标准。

--retain_unpaired：对于双端测序结果，一对reads中，如果一个read达到标准，但是对应的另一个要被抛弃，达到标准的read会被单独保存为一个文件。

--gzip和--dont_gzip：清洗后的数据zip打包或者不打包。

--output_dir：输入目录。需要提前建立目录，否则运行会报错。

--trim-n : 移除read一端的reads

三、软件运行命令

##双端数据要指定 --paired
nohup trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./ $fq1 $fq2 &

批量运行脚本

cd 03.trim
ls /home/data/lihe/lncRNA_project/01.raw_data/*_1.fastq.gz > 1
ls /home/data/lihe/lncRNA_project/01.raw_data/*_2.fastq.gz > 2
paste 1 2 > config

cat > 03.trim.sh
config=$1
number1=$2
number2=$3
cat $1 | while read id
do
    if((i%$number1==$number2))
    then
    arr=(${id})
    fq1=${arr[0]}
    fq2=${arr[1]}
    trim_galore -q 25 --phred33 --length 35 --stringency 3 --paired -o ./  $fq1 $fq2
    fi    ## end for number1
    i=$((i+1))
done


for i  in {0..9}
do 
(nohup bash 03.trim.sh  config 10 $i 1>log.$i.txt 2>&1 & )
done

命令参数解读：

-q 25 # 设定Phred quality score阈值是25

-phred33 # 指定使用phred33碱基质量值体系

--length 35 # 输出reads长度阈值，小于35bp的reads会被抛弃

--stringency 3 # 可以忍受的前后adapter重叠的碱基数为3

--paired # 对于双端测序结果，一对reads中，如果有一个被剔除，那么另一个会被同样抛弃，而不管是否达到标准。

./ $fq1 $fq2 输入文件

四、输出文件解读

fq.gz格式文件是处理后得到的数据，txt格式文件是样品处理的结果报告，也包括软件运行的参数信息。下面是其中一个的结果。

SUMMARISING RUN PARAMETERS
==========================
Input filename: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Trimming mode: paired-end
Trim Galore version: 0.6.6
Cutadapt version: 3.2
Number of cores used for trimming: 1
Quality Phred score cutoff: 25
Quality encoding type selected: ASCII+33
Using Illumina adapter for trimming (count: 11117). Second best hit was smallRNA (count: 13)
Adapter sequence: 'AGATCGGAAGAGC' (Illumina TruSeq, Sanger iPCR; auto-detected)
Maximum trimming error rate: 0.1 (default)
Minimum required adapter overlap (stringency): 4 bp
Minimum required sequence length for both reads before a sequence pair gets removed: 35 bp
Output file will be GZIP compressed


This is cutadapt 3.2 with Python 3.8.5
Command line parameters: -j 1 -e 0.1 -q 25 -O 4 -a AGATCGGAAGAGC /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
Processing reads on 1 core in single-end mode ...
Finished in 1503.33 s (26 ?s/read; 2.31 M reads/minute).

=== Summary ===

Total reads processed:              57,950,521
Reads with adapters:                 1,303,446 (2.2%)
Reads written (passing filters):    57,950,521 (100.0%)

Total basepairs processed: 8,692,578,150 bp
Quality-trimmed:              42,494,919 bp (0.5%)
Total written (filtered):  8,627,614,520 bp (99.3%)

=== Adapter 1 ===

Sequence: AGATCGGAAGAGC; Type: regular 3'; Length: 13; Trimmed: 1303446 times

No. of allowed errors:
1-9 bp: 0; 10-13 bp: 1

Bases preceding removed adapters:
  A: 18.4%
  C: 32.3%
  G: 34.4%
  T: 14.9%
  none/other: 0.0%

Overview of removed sequences
length  count   expect  max.err error counts
4       281681  226369.2        0       281681
5       88526   56592.3 0       88526
6       45429   14148.1 0       45429
7       40879   3537.0  0       40879
8       38695   884.3   0       38695
9       37360   221.1   0       36428 932

RUN STATISTICS FOR INPUT FILE: /home/lihe/lncrna/raw/SRR10744251_1.fastq.gz
=============================================
57950521 sequences processed in total

文末友情推荐

与十万人一起学生信，你值得拥有下面的学习班：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。