BLAST是BasicLocalAlignmentSearchTool的首字母缩写,直译过来就是基本局部比对搜索工具。BLAST的基本原理很简单,要点是片段对的概念。所谓片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。
BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率(https://blast.ncbi.nlm.nih.gov/Blast.cgi)
分类
Blastp
用蛋白质序列搜索蛋白质序列数据库
Blastn
用核酸序列搜索核酸序列数据库
Blastx
将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库
Tblastn
用蛋白质序列搜索核酸序列数据库,数据库中的核酸序列要按6条链翻译成蛋白质序列后再搜索。
Tblastx
将核酸序列按6条链翻译成蛋白质序列后搜索核酸序列数据库,数据库中的核酸序列要按6条链翻译成的蛋白质序列后再搜索。
根据搜索算法可分为:标准BLAST,PSI-BLAST,PHI-BLAST等。
1
PSI-BLAST
为了提高速度,标准BLAST牺牲了一定的准确度,牺牲掉的准确度对高度相似的序列,也就是亲缘关系近的序列构成不了威胁,不会把它们落掉,但是对于那些只有一点点相似,也就是远源的序列,就有点麻烦了,它们很可能被落掉而没有被BLAST发现。
要解决这个问题,可以用PSI-BLAST。PSI是PositionSpecificIterated首字母缩写,中文是位点特异性迭代。PSI-BLAST的特色是搜完一遍再搜一遍,且从第二次搜索开始,每次搜索前都利用上一次搜索到的结果创建一个位置特异权重矩阵以扩大本次搜索的范围。如此反复直至没有新的结果产生为止。
﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏
2
PHI-BLAST
PHI-BLAST和PSI-BLAST不同,PSI-BLAST是撒大网搜索,而PHI-BLAST则是精准搜索。PHI是Pattern-Hit Initiated首字母缩写,中文是模式识别。PHI-BLAST能找到与输入序列相似的并符合某种特征模式的蛋白质序列。模式Pattern是对特征的描述。
比如发生N糖基化位点的序列都符合这样一个特定的模式:发生糖基化的天冬酰胺,后面一定紧跟一个脯氨酸以外的氨基酸,再紧跟丝氨酸或者苏氨酸,再紧跟一个脯氣酸以外的氨基酸。
特定模式可通过正则表达式来表述。所谓正则表达式就是这句话的一个简约的规范性字符书写法。发生N糖基化位点的序列符合的特定模式翻译成正则表达式为N{P}[ST]{P}。
其中,N是天冬酰胺,P是脯氨酸,S是丝氨酸,T是苏氨酸。{}代表除大括号里的氨基酸以外的任意氨基酸,[]代表中括号中的任意一个氨基酸。得知这些符号的含义之后,这个正则表达式就很容易读懂了。PHI-BLAST可以根据给入的正则表达式对搜索到的相似序列进行模式匹配,符合正则表达式的才会被作为结果输出。
﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏
3
SMART-BLAST
SMART-BLAST可谓是标准BLASTp的简约强化版。操作极其简单,简单到只需要输入序列。
SMART-BLAST虽然操作简单,但返回的结果却并不简单(下图)。它包括数据库中与输入序列最相似的三条序列,以及研究的最透彻的物种中可以展现一定进化关系的两条相似序列。图中黄色的是你输入的序列,绿色的是研究的最好的模式物种中与你输入序列相似的序列。旁边还直接给出了这三条序列的系统发生树。总之,SMART-BLAST可以帮你从一大堆结果中挑选出你最想要的。如果你很懒,或者你很茫然,可以试试这个聪明的BLAST。
﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏﹏
ü互联网上的免费搜索工具
位置 | 服务器 | 网址链接 |
USA | NCBI | http://www.ncbi.nlm.nih.gov/BLAST |
Europe | ExPASy | http://web.expasy.org/blast |
Europe | Uniprot | http://www.uniprot.org/blast/ |
Japan | DDBJ | http://www.uniprot.org/blast/ |
üWU-BLAST:WU代表WashingtonUniversity,比NCBI-BLAST更灵敏,在插入空位的算法上更灵活。
üSmithandWaterman(SSEARCH):有点儿慢,但是比BLAST更准确。
üFASTA:有点儿慢,但是对于DNA序列的比较比BLAST更准确。
üBLAT:用于小的序列(如cDNA等)在大基因组中的搜索。
联系客服