打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
科研 | Nucleic Acids Res.: Pfam: 2021年的蛋白质家族数据库

编译:晨晨,编辑:Emma、江舜尧。

原创微文,欢迎转发转载。

导读

Pfam是一个广泛使用的数据库,可以将蛋白质序列划分为家族和域。自本期刊中上次报道Pfam起,Pfam 33.1中增加了350多个新家族,并且对现有数据进行了大量改进。为促进对COVID-19的研究,我们修订了SARS-CoV-2蛋白质组的Pfam数据,并在Pfam未覆盖的区域创建了新数据。我们重新引入了Pfam-B,包含136730个Pfam家族中无匹配的新的序列簇,并为Pfam提供自动生成的补充,新的Pfam-B基于MMseqs2软件进行聚类。我们将RepeatsDB中的所有区域与Pfam中的区域进行了比较,并开始利用这些结果构建和精炼Pfam重复家族。Pfam可以通过http://pfam.xfam.org/免费浏览和下载。


论文ID


原名:Pfam: The protein families database in 2021
译名:Pfam: 2021年的蛋白质家族数据库
期刊:Nucleic Acids Research
IF:11.5
发表时间:2020.10
通讯作者:Jaina Mistry
通讯作者单位:欧洲生物信息学研究所分子生物学实验室

实验结果

1. 引言

Pfam是一个含蛋白质家族和结构域的数据库,被广泛用于分析新的基因组、宏基因组并为特定蛋白质的实验工作提供指导。每个Pfam家族都有一个种子比对,其中包含条目的一组代表性序列。使用HMMER软件(http://hmmer.org/)根据种子对齐自动构建件隐藏马尔可夫模型(HMM),并在pfamseq列数据库进行搜索。满足家族特定的阈值(也称为聚集阈值)的所有序列区域都与配置文件HMM进行完全比对。值得注意的是,Pfam常见的误用是对所有Pfam HMMs使用单一的E-value阈值,这与使用每个家族的收集阈值相比,会降低灵敏度,增加假阳性匹配。Pfam条目是用文献中的功能信息手工注释的。自从Pfam 29.0版发行,pfamseq基于UniProtKB参考蛋白组,而在此之前,它是基于整个UniProtKB。尽管序列数据库是基于参考蛋白质组的,但是所有的文件HMMs都是根据UniProtKB搜索的,结果匹配在Pfam网站上以平面文件格式提供。同样,蛋白组的匹配数据也以同样的方式提供。Pfam可以通过https://pfam.xfam.org网站访问。Pfam MySQL数据库的平面文件在每个数据库的CC0许可下提供,可以在ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases上找到。在构建Pfam条目时,我们通常使用pfamseq迭代搜索以找到更远的同源序列。Pfam条目的构建使它们之间没有重叠,这意味着序列的同一个区域不应该匹配一个以上的族。这个不重叠规则被证明是一个优秀的质量控制标准,它有助于避免在一个家族中包含假阳性匹配。从Pfam 28.0开始,我们放宽了这个规则,允许家族之间有小的重叠,因为每次更新pfamseq时,解决所有这些重叠变得越来越耗时。我们将进化相关的Pfam 条目分组为族,通过确定序列相似度,结构相似性,功能相似度和/或使用软件如HHsearch比较蛋白模型来确定条目之间的关系。在可能的情况下,我们构建一个全面HMM检测一个家庭的所有成员,对于一些较大的超级家族,我们建立多个HMMs谱,并把他们放在同一个家族。由于一个家族成员是进化相关的,我们允许他们与同一假族的其他成员重叠。家族之间具有竞争,如果有多个重叠的HMM谱图与一个家族的家庭匹配,只有E值最低的匹配才会显示在网站上,或者包含在条目的完全比对中。

本文报道了Pfam33.1和一些更新的家族,还详细介绍了Pfam对SARS-CoV-2蛋白质组的覆盖,以及我们在Pfam 33.1中引入的创建Pfam-B的新方法。最后,我们报道了重复序列在Pfam与RepeatsDB数据库中的比较结果。

2.PFAM 33.1版

Pfam33.0本应于2020年3月发布,但由于全球COVID-19大流行,为了改进SARS-CoV2模型,我们推迟了它的发布。更新后的SARS-CoV-2模型和其他一些新的Pfam条目被添加到Pfam 33.0中,从而创建了Pfam 33.1并于2020年5月发布。尽管版本33.0数据库文件在ftp网站上是可用的,但从未在Pfam网站上正式发布。Pfam 33.1包含18 259个家族和635个家族。从Pfam 32.0开始,我们已经建立了355个新家族,删除了25个家族,建立了8个新clans。超过39%的Pfam家庭属于一个clan。在UniProtKB的序列中,77.0%的序列至少有一个与Pfam条目匹配,而在UniProtKB中的53.2%的序列属于一个Pfam条目。这些序列和残基覆盖的数据,在过去5版本中较为恒定,尽管在此期间UniProtKB增长了240%(见图1)。自2015年以来,从UniProtKB中识别并去除了高度冗余的细菌蛋白质组。这一过程确保了添加到UniProtKB序列中的序列具有一定的多样性,并防止了某一特定物种的多个菌株被添加。Pfam能够保持序列覆盖率为77%,残基覆盖率为53%。随着UniProtKB数据的增长,越来越难以增加Pfam覆盖率。虽然新模型很少增加覆盖率,但它们可能代表了重要的医学相关的蛋白质。例如,在我们改进SARS-CoV-2模型的过程中,我们构建了Pfam:PF19213,它对应于非结构蛋白6 (NSP6),一种参与自噬体生成的蛋白。UniProtKB参考蛋白组Pfam 33.1序列和残基覆盖率分别为75.1%和49.4%。与Pfam32.0相比,序列覆盖率增加了0.6%,残基覆盖率下降了0.7%。与Pfam 32.0相比,Pfam 33.1蛋白组参考序列的数量仅增加了3%,但删除了大约2000个细菌蛋白。自Pfam32.0释放以来,覆盖率的变化可能是由于蛋白X`组参考序列的变化造成的。

图1 UniProtKB的增长,以及最近五个Pfam版本中Pfam的覆盖率

尽管已有25年的注释,在Pfam中仍有许多蛋白质结构域和家族没有分类。Pfam的新家族具有一系列来源,包括Pfam-B家族和蛋白质结构。近三分之一的Pfam条目是由Pfam-B比对构建的。在Pfam 33.1中新的Pfam-B (如下所述)用于构建18个条目。我们预计,Pfam-B将在未来几年内再次成为额外家族的一个非常有用的资源。

PDB中的蛋白质结构特别适合作为Pfam新条目的来源,因为Pfam域边界可以从结构中精确地定义。有一篇与我们用来帮助注释Pfam条目的结构相关的论文。正在利用蛋白质结构构建家族,如一些新的SARS-CoV-2家族。此外,我们还根据MGnify宏基因组蛋白数据库的序列聚类,建立了37个新家族。MGnify簇可能是未来建立家族的另一个大来源。使用宏基因组簇可以帮助覆盖现有基因组没有覆盖的序列区域。

Pfam为未知功能域(DUF)和无特征蛋白家族(UPF)创造了许多条目。随着时间的推移,其中一些功能被发现。我们会继续查阅相关文献,以确定新的功能,并接收来自研究的更新。InterPro数据库更新过程中确定很多功能,该过程检查每个InterPro条目在不同版本之间,由UniProtKB/Swiss-Prot描述的蛋白质功能是否发生了变化。目前为止,我们已经更改了1132个DUF或UPF家族的标志,这些标志有助于这些家族功能的识别。在33.1版本中,Pfam包含4244个DUF或UPF系列,占所有Pfam系列的23%。这表明,仍有许多未确定的家族和结构域有待分子生物学家研究。

我们定期收到一些蛋白家族在Pfam中缺失的反馈,并在每个版本中添加用户提交的蛋白家族,包括提交者名称和ORCID标识符(https://orcid.org/)。Heli Monttinen提交了一份大规模的病毒家族群集,我们据此在Pfam中添加了88个新家族。我们鼓励用户继续提交有意思的潜在新蛋白域和家族。

3. COVID-19的更新

SARS-CoV-2大流行引起了全世界的研究,以了解病毒本身、致病机制以及治疗方案。Pfam为SARS-CoV-2提供了注释,但我们试图更新模型、家族和注释,以帮助研究工作。我们评估了UniProt中新的COVID-19 (https://covid-19)蛋白序列,确定缺少Pfam模型的对象,并根据需要构建新模型。现在覆盖了几乎所有由SARS-CoV-2编码的基因产物(图2)。Orf10,位于SARS-CoV-2基因组的末端,是唯一未被Pfam注释的蛋白质。因其在UniProtKB中缺少同源基因而不能构建Pfam条目。现在,大多数的家族标识开始于特定家族的冠状病毒CoV,或SARS-CoV-2所属的β冠状病毒相关的家族。我们还修正了各种非结构蛋白(NSPs)命名和描述的不一致性,用NSPx表示复制酶多蛋白编码的蛋白,使用NSx表示其他ORFs编码的蛋白。

图2 SARS-CoV-2蛋白质组的Pfam覆盖示意图

最上面的一排框表示由前体多聚蛋白加工而成的单个病毒蛋白。有颜色的盒子代表包含一个以上的Pfam域。

4. 结构和附属蛋白

这种病毒最重要的蛋白质之一是刺突蛋白(S),它帮助病毒进入宿主细胞,是其致病性的关键。我们改进了数据库中已经存在的模型,并添加了一个新的域。S蛋白质由宿主蛋白酶裂解生产S1和S2肽,有三个域对应S1,N-末端结构域域(Pfam:PF16451)、受体结合域(RBD)( Pfam:PF09408)和新的C-端域(PfamP:F19209)。S2在家族Pfam:PF01601中描述,它包含一个额外的S2裂解位点、融合肽(FP)、内融合肽(IFP)、七肽重复1/2(HR1/2)和跨膜结构域(TM)。

Pfam中其他结构蛋白被更新,如Pfam中的核衣壳蛋白(N) Pfam:PF00937、基质蛋白(M) Pfam:PF01635、包被E蛋白Pfam:PF02723中的。由冠状病毒编码的附加蛋白,通常称为非结构附加蛋白(NS)。例如,NS3a对应于Pfam中的β冠状病毒, Pfam:PF11289, Pfam:PF09399描述了核衣壳基因中编码的蛋白9b,它包含一个脂质结合域。Pfam:PF08779中的附件蛋白NS7a和NS7bPfam:PF11395在复制周期中分别是重要的。Pfam:PF12093家族中的NS8可能调节病毒的致病性或复制,已成为研究人类对病毒适应的最重要基因之一。附件蛋白NS6(Pfam:PF12133)在SARS相关冠状病毒中高度保守,它可以通过抑制干扰素的合成和信号传导来调节宿主免疫反应。Pfam家族:PF17635描述了Orf14编码的蛋白14,其功能目前尚不清楚。

5. 非结构蛋白

我们更新了由ORF1a/1ab编码的冠状病毒NSPs的非结构蛋白。NSPs形成复制-转录复合物(RTCs)是合成病毒RNA的必要条件,是感染过程或避免宿主免疫反应所需的。在这些蛋白中,NSP3是最大的复制酶,含有一些保守的结构域,其组成与其它冠状病毒不同。它有一个关键的功能,编码的复制酶裂解蛋白质,包括NSP3本身。它是RTC的重要组成部分,作为一种支架蛋白与自身和其他NSPs相互作用。现有的N端结构域Pfam:PF12379已改进更新,其中的NSP3a域与很多参与复制和转录过程蛋白质互作。NSP3a与新生的复制酶/转录酶复合物中的核衣壳蛋白N相互作用,在最初感染阶段对复制酶-转录酶复合物中的RNA定位至关重要。该蛋白编码的其他结构域包括Pfam:PF01661和SUD-M结构域Pfam:PF11633,它们能结合单链poly(A)。Pfam:PF12124结构域被更新为SUD-C或DPUP结构域,它与单链RNA结合并识别嘌呤碱基。对多肽加工至关重要的木瓜样蛋白酶(PLPro)存在于Pfam:PF08715;核酸结合结构域(NAR)属于Pfam:PF16251家族,NSP3的C端结构域属于Pfam:PF19218。此外,NSP4的N端域存在于新家族Pfam:PF19217,其C端域在Pfam:PF16348,DUF5881在Pfam:PF19213中称为NSP6。Pfam:PF05409中描述了这些病毒的其他蛋白酶活性。Pfam数据库中还有其他NSPs,其中大多数家族已扩展到SARS-Cov-2序列。例如Pfam:PF08716和Pfam:PF08717分别对应于NSP7和NSP8,它们都形成了一个十六聚体超复合物,该超复合物采用空心圆筒状结构,对RNA结合的NSP12区域起稳定作用,是形成高活性的NSP12聚合酶复合物所必需的。NSP12是一种RNA指导的RNA聚合酶,N-端和C-端结构域分别存在于Pfam:PF06478和Pfam:PF00680中。NSP9属于Pfam:PF08710,是一种单链RNA结合病毒蛋白,参与RNA合成,对冠状病毒复制至关重要。Pfam:PF09401中包含的NSP10是较为保守的冠状病毒蛋白之一。它与NSP14 (Pfam:PF06471)和NSP16 (Pfam:PF06460)相互作用,调节各自的外切酶活动。它有SARS-CoV的特异性的Tyr-96,由于它在NSP10-NSP16相互作用和NSP16的激活中发挥关键作用,因此特别值得关注。基于最近的SARS-CoV-2蛋白结构,我们能够建立新的家族。我们在Kim等人建立的结构基础上(图3)构建了三个新的条目,表示NSP15蛋白的三个结构域。

图3 NSP15 (PDB ID: 6VWW)结构展示了三个新的Pfam域

(i) CoV NSP15 N (Pfam:PF19219)冠状病毒复制酶NSP15,N端寡聚体结构域为红色,(ii) CoV NSP15 M (Pfam:PF19216)冠状病毒复制酶NSP15,中间结构域为蓝色,(iii) CoV NSP15 C(Pfam:PF19215)冠状病毒复制酶NSP15,尿酸盐特异性核糖核酸内切酶为绿色。

6.PFAM-B

除了Pfam-A之外,我们还提供了一组未注释的、通过计算生成的多个序列排列,称为Pfam-B。用于构建Pfam-B方法多年来发生了显著变化。Pfam-B使用了ADDA算法,删去了Pfam-A覆盖的部分。现在,设计了可替代的方法,使得Pfam-B能使用MMSeqs2软件来降低计算成本。该方法更容易产生代表新结构域的蛋白家族。

Pfam-B通过50个残基以上的序列聚簇生成。20个残基以上的序列使用FAMSA进行多序列比对。产生了136,730个Pfam-B家族,平均包含99个序列(最多含40 912个)。

 Pfam-B比对结果在Pfam FTP site (file Pfam-B.tgz)中释放。我们没有使用HMMs,也没有将它们整合到Pfam网站中。条目被分类,使第一个条目具有大小和保守性的最佳组合,因此将有最有可能代表新的结构域。

7. PFAM类别定义

PFAM类别定义将条目分成六种类型,可以帮助用户选择在分析中使用的Pfam家族。在过去的一年里我们已经对Pfam类型定义进行了大量更新(表1),特别是我们已经进使用ncoils软件来识别卷曲螺旋的家族比例。这样检验后,我们能够改变他们的类型。我们很想看看是否可以改进Pfam中其他类型的定义。我们已经研究了Pfam中的乱序和重复,并在下面报道了这些结果。

表1 Pfam32.0和33.1版本的每个Pfam类型的数量

8. PFAM中的乱序

我们研究了所有PFAM家族预测为乱序的水平。乱序的Pfam条目的平均值为55%(范围在18-94%之间)。对于每个家族,我们确定了种子序列中被segmasker预测为低复杂度或MobiDB-lite预测为无序的残基比例。如图4所示,有303个Pfam家族的80%以上的种子比对残基被预测为无序/低复杂度,但目前只有81个被分类为无序。我们已经开始为34.0版本重新分类这些家族。

图4 分别由segmasker和MobiDB-lite预测的低复杂性或无序的Pfam条目种子排列中的残留百分比

9. PFAM中的重复

在研究Pfam中的重复类型中,我们将它与RepeatsDB重复数据库进行了比较。该数据库包含了来自PDB的重复蛋白严格的结构分类。RepeatsDB中的重复区域通过结构检测,并标注每个重复单元的位置。与Pfam的比较强调了基于序列和结构的重复标识、域注释和分类之间的差异,并且与我们正在改进的重复定义相关。

Pfam覆盖了RepeatsDB中64.2%的重复区域(图5),呈双峰分布,峰值分别为0和100%,因此,大多数RepeatsDB条目被Pfam家族完全鉴定或未鉴定。这种分析有助于Pfam注释,比如STU2蛋白质(UniProtKB: P46675)包含HEAT重复(图5),DDB1 -和CUL4-相关因子1(UniProtKB: Q9Y4B6)的β-螺旋域和GTPase-激活蛋白1(UniProtKB: P41391)的LRR域。这些序列将与RepeatsDB中结构相似的条目进行比对,从而得出Pfam的输入序列,并将与现有序列模型(如Pfam LRR和HEAT重复域)的重叠的问题解决。

我们研究了RepeatsDB中的Pfam域的数量和类型。在106个Pfam家族中,共有573个Pfam域有重复序列匹配,只有91例(15.9%)重复型。共有176个(30.7%)类型家族,303个(52.9%)结构域,1个螺旋卷曲和2个基序。事实上,第V类条目大部分(86.5%)映射到Pfam中的域。然而,RepeatsDB加长结构,即最典型的重复,包括两个基序条目,仍然大部分被匹配到非重复Pfam类型。

这些数据支持Pfam类型分配的修订,同时将重复RepeatsDB单元于Pfam域相对应。Pfam模型可以以不同的方式定义:(1)它们可以匹配到整个重复区域,例如rRNA N-糖苷酶(UniProtKB:B7×8M2)中的毒素型β-三叶凝集素结构域(Pfam:PF00652)。该区域的模型最初设计为对应于单个单元,但后来为了增加其灵敏度被修改和更新为当前版本,这类重复区域通常包括三个单元的串联重复。在这种情况下,应该保留对域的类型分配。(2) Pfam模型可能匹配到每个重复单元,在相同阶段,如在人类染色体缩合的调节子(UniProtKB:P18754)中的RCC1重复(Pfam:PF00415),在不同阶段,如WD重复序列的蛋白5 (UniProtKB: P61964) 中的WD域(Pfam:PF00400)。在后者中,当RepeatsDB阶段被定义为对应于β-螺旋桨的单个结构域时,Pfam模型匹配到包含每个分支的大部分和下一个β-折叠片段(图5)。这种类型单元称为“Velcro”,具有稳定功能。因此,这两个阶段与两个不同的概念相关,这些类型的示例强调说明了可以使用结构重复模式修改序列的情况,反之亦然。(3) 最后, Pfam的不同模型包含了可能匹配到同一个重复区域,对应于不同数量的单位,如神经位点同源蛋白1(UniProtKB: P46531)的Ankyrin (图5),三种Pfam模型(Pfam:PF00023,Pfam:PF13637和Pfam:PF12796)分别映射到一个、两个、三个重复单位。在这种情况下,Pfam模型实际上略过了一个单元和一个片段,需要对Pfam模型中所包含的最佳单元数和潜在的重叠进行广泛研究。

图5 RepeatsDB的UniProtKB条目中重复区域的Pfam覆盖

讨论

在过去几年中,UniProtKB的Pfam序列和残基覆盖率一直保持相当稳定,分别为~ 77和~ 53%。这意味着尽管Pfam的目标是全面的,但仍有一个重要的序列空间区域没有Pfam注释。随着UniProtKB的数据增长,增加覆盖率就变得越来越困难。尽管如此,仍有许多重要的家族有待建立,我们计划在下一个版本中集中精力建立家族。为表示生命之树的多样性,将从各种来源建立新的家族。我们也将从宏基因组序列簇、PDB结构和提交的群落中继续建立家族。

为了应对COVID-19大流行,我们修订了所有匹配SARS-CoV-2蛋白的现有家族,并建立了新的HMMs以覆盖之前未被Pfam注释的区域。SARS-CoV-2蛋白质组中的所有蛋白质都被Pfam覆盖,除了被认为是由Orf10编码的蛋白质。我们希望我们的模型能够帮助研究界鉴定和注释冠状病毒序列。此外,使用Pfam HMMs生成的多重序列比对可能有助于跟踪冠状病毒的进化。

自上一个版本以来,我们已经更新了一些类型定义,特别是那些预计有螺旋卷曲的类型定义。我们还确定了一组有高比例无序残基的家族,并计划作为紊乱类型在下一个Pfam释放。我们还将Pfam与RepeatsDB数据库进行了比较,通过比较,将着眼于将一些Pfam条目的类型更改为重复序列,将额外的RepeatsDB区域合并到Pfam中,并修改一些重复条目的域边界。

原文链接:  
https://pubmed.ncbi.nlm.nih.gov/33125078/

   



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
插件 | 地表最强 Hmmer Search 界面工具
使用HMM进行基因家族鉴定?无人不能。
HMMER搜索含有特定Motif的蛋白
几个非常有用的蛋白质数据库
整套蛋白生信分析之进阶篇:蛋白初级结构分析
基因家族分析-SCI发文热点!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服