名闻遐迩的Blast也是最常用的生信工具之一。前贴链接《多图详解本地版Blast序列比对》《图解NCBI Blast》《如何在windows环境下批量运行100株菌的blast比对?》
可是,正如前贴说过的,要使用Blast,我们需要分两步走,先建库(makeblastdb),再比对(blastn)。总是觉得太麻烦了。
那么,有没有更简单、更快速的生信工具可供我们选择呢?
笔者推荐自己大爱的Blat
注意: Blat 不是Blast哦 (Blat is Not Blast)。
它俩既不是兄弟,也不是一个团队开发的,计算原理也都不一样。可是,功能上非常的类似,都能快速地实现两条序列之间的比对(Alignment)。
只是,Blat,更快,更简单!
说Blat简单快速,是因为它可以直接比对,而不是像Blast一样需要先建库再比对。
分以下几个方面详述一下Blat这个工具~ (阅读时间约10min)
一、Blat的安装
二、Blat的用法
三、Blat的结果
四、Blat的参数说明
五、Blat的在线使用方法
一、首先是安装~
如果你已经安装了conda(参考链接:善用Bioconda,管理好自己的Linux工具库),那可以采用极简式安装方法
conda install blat
如果没有conda,那也可以下载source code。
下载链接:https://hgwdev.gi.ucsc.edu/~kent/exe/linux/
目前最新的版本是blatSuite.37.zip
下载方法
wget https://hgwdev.gi.ucsc.edu/~kent/exe/linux/blatSuite.37.zip
unzip blatSuit.37.zip
二、Blat的用法
给大家看一下,它的极简用法
blat Seq1 Seq2 Out
简单地说,blat是命令,Seq1为第一条序列,Seq2为第二条序列,Out为Seq1和Seq2比对的列表结果。blat参数很多,下一节会说到,但一般采用默认参数也足够了。需要的话再增加参数调整。
一条命令就可以搞定序列比对了。我们可以用blat来做基因和基因的比对,也可以用它做基因和基因组之间的比对。各种花样都可以玩起来。基本上,Blast能做的事,Blat都能做,只是名气上小了那么一丢丢,不太受人们重视。
三、Blat的结果
Blat比对输出结果内容也非常的全面,包含了详细的比对位置信息,每一列的意义都 在文件开头列出。
第1~8列是总体的比对统计,包括精确比对碱基数、错配、query和subject上的gap个数总长等等;
第9列是比对方向(+ 或者 -),
第10~13 列是Query比对位置信息,包括名字、长度、比对起止位置;14~17 列是Target比对位置信息,包括名字、长度、比对起止位置。
因为是列表格式,非常方便我们后面做进一步的筛选和二次分析。不管是用Linux命令行或者Windows的excel手工操作,都很方便。
四、Blat的参数说明
同Blast一样,Blat也提供了功能繁多的参数,供用户挑选。官方说明链接如下
http://genome.ucsc.edu/goldenPath/help/blatSpec.html
我个人认为,比较重要的参数是minIdentity,该参数可以用于筛选比对结果。Blat默认输出的是相似度超过90%的比对结果。我们可以视自己的需要调整的更严,比如-minIdentity=99,或者更宽松,例如-minIdentity=85。都是可以的呢~
另外一个非常重要的参数out,我们可以用它来调整结果输出的方式。
比如, 我们用-out=blast,则可以获得如下图所示,我们非常熟悉的blast经典比对结果
各种参数的具体说明如下,大家根据需要自取哈
-t=type Database type, one of:
dna - (default) DNA sequence
prot - protein sequence
dnax - DNA sequence translated in six frames to protein
-q=type Query type, one of:
dna - DNA sequence
rna - RNA sequence
prot - protein sequence
dnax - DNA sequence translated in six frames to protein
rnax - DNA sequence translated in three frames to protein
-prot Synonymous with -t=prot -q=prot
-ooc=N.ooc Use overused tile file N.ooc. N should correspond to the tileSize.
-tileSize=N Sets the size of match that triggers an alignment. Usually between 8 and 12.
Default is 11 for DNA and 5 for protein.
-stepSize=N Spacing between tiles. Default is tileSize.
-oneOff=N If set to 1, this allows one mismatch in tile and still triggers an
alignment. Default is 0.
-minMatch=N Sets the number of tile matches. Usually set from 2 to 4. Default is 2 for
nucleotide, 1 for protein.
-minScore=N Sets minimum score. This is the matches minus the mismatches minus some sort
of gap penalty. Default is 30.
-minIdentity=N Sets minimum sequence identity (in percent). Default is 90 for nucleotide
searches, 25 for protein or translated protein searches.
-maxGap=N Sets the size of maximum gap between tiles in a clump. Usually set from 0 to
3. Default is 2. Relevant only for minMatch > 1.
-noHead Suppresses .psl header (so it's just a tab-separated file).
-makeOoc=N.ooc Makes overused tile file. Target must be complete genome.
-repMatch=N Sets the number of repetitions of a tile allowed before it is marked as
overused. Typically this is 256 for tileSize 12, 1024 for tile size 11,
4096 for tile size 10. Default is 1024. Typically needed only with makeOoc.
Also affected by stepSize: when stepSize is halved, repMatch is doubled to
compensate.
-mask=type Masks out repeats. Alignments won't be started in masked region but may
extend through it in nucleotide searches. Masked areas are ignored entirely
in protein or translated searches. Types are:
lower - masks out lower-cased sequence
upper - masks out upper-cased sequence
out - masks according to database.out RepeatMasker .out file
file.out - masks database according to RepeatMasker file.out
-qMask=type Masks out repeats in query sequence. Similar to -mask above but for query
rather than target sequence.
-repeats=type Type is same as mask types above. Repeat bases will not be masked in any way,
but matches in repeat areas will be reported separately from matches in other
areas in the psl output.
-minRepDivergence=NN Minimum percent divergence of repeats to allow them to be unmasked. Default
is 15. Relevant only for masking using RepeatMasker .out files.
-dots=N Outputs a dot every N sequences to show program's progress.
-trimT Trims leading poly-T.
-noTrimA Don't trim trailing poly-A.
-trimHardA Removes poly-A tail from qSize as well as alignments in psl output.
-fastMap Run for fast DNA/DNA remapping, not allowing introns and requiring high %ID.
-out=type Controls output file format, one of:
psl - (Default) tab-separated format, no sequence
pslx - tab separated format with sequence
axt - blastz-associated axt format
maf - multiz-associated maf format
sim4 - similar to sim4 format
wublast - similar to wublast format
blast - similar to NCBI blast format
blast8 - NCBI blast tabular format
blast9 - NCBI blast tabular format with comments
-fine For high-quality mRNAs, looks harder for small initial and terminal exons.
Not recommended for ESTs.
-maxIntron=N Sets maximum intron size. Default is 750000.
-extendThroughN Allows extension of alignment through large blocks of Ns.
五、Blat的在线使用方法
Blat在线版网址(官方):http://genome.ucsc.edu/cgi-bin/hgBlat?command=start
网站中预置了包括人类、大鼠、小鼠、斑马鱼等多种模式动物基因组序列。但可惜的是,微生物领域的数据较少,只有新冠、埃博拉等寥寥几个热点的病原供在线比对。
好在本地版也足够简单方便,咱们日常分析还是建议采用本地版操作,更为实用方便。
好的工具如屠龙宝刀,让我们的工作更得心应手。找到自己的屠龙宝刀,掌握它,是我们每一个人的修炼之路。
与君共享探索路上的点点滴滴,也非常欢迎大家留言分享更多好玩的、有用的、需要的工具~
开年第一愿,愿2023年,我们每一个人都能变的更好一点,也更开心快乐一点。
长按关注
公众号名称:微微悦明
科学的乐趣是获得新知识的喜悦~
高通量测序、大数据病原微生物检测和监测健康大数据行业资讯记录与分享
天下同归而殊途,一致而百虑
联系客服