比blast生猛的同源序列搜索程序HMMER 3.0使用教程#每天进步一点点#

作者大程

HMMER被用于在序列数据库中搜索同源序列，产生同源序列比对，所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用，例如Pfam等。但是HMMER同时能够处理特定的索引，并不仅仅是多序列比对后产生的profile文件，这个与BLAST很像。

例如可以使用一条蛋白序列搜索特定的数据库，或者迭代搜索。

HMMER的强大之处在于可以检测到远的同源序列。

本教程是在win7下演示本底使用安装，当然和blast类似，也存在网页版。

hMMER下载主页：

在windows下HMMER需要在Cygwin环境下执行，这是一种在windows情况下模拟linux的工作环境。

下载好之后，我们首先设置Cygwin的环境：

按照提示，一步步进行安装：

等候几分钟下载成功后，默认是选择最基本的包进行安装：

安装好后，可以看到桌面出现Cygwin图标：

启动命令行：

需要注意在使用Cygwin的时候，所需要的对应的路径需要更改：

/cygdrive/c/mypath/myfile

而不是

c:\mypath\myfile.

现在我们就可以体验HMMER啦！

接下来，我们通过一些范例程序演示如何使用HMMER：

Hmmbuild、hmmsearch、hmmscan和hmmalign被誉为蛋白质domain分析和注释的核心四工具。

Phmmer和jackhmmer类似于BSLASTP和PSIBLAST搜索特定的蛋白序列。

HMMER可以自动检测输入文件的格式。如果需要特殊指定，则使用命令行参数 –informat afa

第一步：使用hmmbuild产生HMM profile文件

首先提供一个Stockholm格式的多序列比对文件，用于生成HMM profile文件：

执行命令行：

$ binaries/hmmbuild globins4.hmm tutorial/globins4.sto

从上面的命令行结果我们可以看到：

总共4条对应的序列，长度是171bp，一致的长度是149bp

我们看到生成了对应的hmm文件：

第二步：使用hmmsearch进行数据库的搜索

Hmmsearch可以接受任何FASTA格式的文件作为数据库的输入。同时接受EMBL/UniProt格式的文件和Genbank文件。

$ binaries/hmmsearch globins4.hmm tutorial/globins45.fa > globins4.out

输出结果：

我们来具体看看输出文件的每一行的含义：

第一部分告诉我们使用的HMM文件和对应的数据库。

第二部分列举出来了一些最最同源的序列，最后两列分别是名称和描述。

前面两个主列分别是基于全长的打分和基于最匹配domain的打分。

其中E-value与序列长度有关，而score则与序列长度无关。

为了给大家更好的演示与domian有关的序列比对，我们使用fibronectin type III domain进行比对：

大家有没有学会呀~~

有问题欢迎联系小编微信号 mzqjcbx

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。