打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
力闻 | Foldseek: 蛋白结构比对进入10秒的时代

引言

AlphaFold2、RosettaFold等模型的出现,让蛋白质结构预测的精度提高到了原子级别。通过这些方法可以生成数百万、数千万乃至数亿的蛋白质结构。目前欧洲生物信息学研究所已经拥有超过2.14亿个由AlphaFold2预测的结构;ESM Atlas包含了超6.17亿个由ESMFold预测的宏基因组结构。数据库规模的急剧扩张对蛋白质结构的搜索提出了挑战,如何快速准确地搜索分析蛋白质的结构,成为了更重要的研究课题。

最广泛的蛋白质搜索是基于序列相似性搜索,其目的是找到同源序列,从中推断出查询序列的特性,如功能、结构、共进化。尽管基于序列的同源性推断取得了成功,但是还是存在一些问题,如仅从序列检测远距离进化关系仍然是一个具有挑战性的问题。与之相对的,在3D空间检测蛋白质结构之间的相似性可以解决该问题,这为识别同源蛋白质提供了更高的灵敏度。想法很好,但是随之而来的是搜索速度的限制。为了提高结构对齐的速度和灵敏度,科学家付出了数十年的努力,但是面对现阶段的结构数据库还是显得速度太慢。主要原因有两方面,其一是序列搜索工具采用了快速且灵敏的预过滤算法提高速度,而结构对比工具没有类似算法;其二,结构相似性是非局部的,改变局部对齐方式会影响其他部分,大多数结构对齐方法通过迭代或随机优化来解决对齐优化问题。

假设我们做一个对比,用TM-align在1亿个蛋白质结构数据可进行单个查询结构的搜索,在一个CPU内核上需要一个月的时间,可以推测用一个1000个内核的集群进行all-versus-all的比较则需要10000年;而搜索序列则快了4-5个数量级,用MMseqs2对1亿个序列进行all-versus-all比较,在相同集群上仅需一周左右。由此可以诞生一个想法,将蛋白质结构搜索的问题转化为“序列”搜索问题,通过序列搜索工具进行搜索。要解决的关键问题是如何将蛋白质结构中的氨基酸三维信息进行重新编码,生成一套新的“结构”字母表。

近期,Michel van Kempen等人在Nature Biotechnology上发表了题为《Fast and accurate protein structure search with Foldseek》的文章,提出了一种名为3Di的新型字母表,用于描述三级结构相互作用。字母表中提到的20种字母,描述了每个氨基酸和其空间上最接近的氨基酸的几何构象。该方法将结构编码为3Di字母表上的序列,从而将结构比对转化为为3Di序列的比对。

这项工作来自Martin Steinegger的实验室,早年他就跟随Johannes Söding进行集成、聚类和注释宏基因组测序数据的计算方法的研究。目前,Steinegger实验室主要研究搜索、聚类和组装序列数据的算法,宏基因组分析,蛋白质功能和结构预测等。早在2017年,Martin Steinegger和他的老板Johannes Söding一起提出了MMseqs2方法,这是一种高效的蛋白质序列搜索方法,其运行速度比BLAST快10000倍;2018年,又发表了关于在线性时间内聚类大量蛋白质序列集的Linclust方法,运行时间与输入集的大小成线性关系;2019年,发表了HH-suite3用于快速远程同源性检测和深度蛋白质注释的工作。因此,Steinegger实验室在蛋白质序列结构的搜索和比对上有着深厚的积累。

AI构架解析

下图展示了Foldseek的工作流程,在目标结构中搜索查询结构。第一步,将查询结构和目标结构离散化为3Di字母表上的序列。为了检测候选的结构,使用预训练的3Di替换矩阵,将MMseqs2的k-mer和无gap比对预过滤器应用于3Di序列搜索;第二步,获得高分的hit,默认情况下使用结合了3Di和氨基酸替换分数的Smith-Waterman局部对比;或者使用TM-align(Foldseek-TM)进行全局对齐。

图1. Foldseek 工作流程

在Foldseek工作流程中,学习3Di字母表十分关键,过程如图1(b)所示。3Di的每个字母描述了氨基酸和其最近氨基酸之间的三级结构的相互作用。为了描述两个氨基酸相互作用的几何,从两个骨架片段(蓝色和红色)的六个Cα坐标中提取七个角度、两个氨基酸之间的欧式距离以及两个序列距离特征。这10个特征将用于定义3Di字母表的20种字母状态。通过对特征进行编码和解码,训练一个VQ-VAE模型,该模型被修改为学习最大进化保守的字母状态。对于结构搜索,编码器会预测每个氨基酸最佳匹配的3Di字母。

实验部分,Foldseek与六种蛋白质结构对齐工具、无对齐结构搜索工具(Geometricus)以及序列搜索工具(MMseqs2)进行了比较。结论是Foldseek以快数千倍的速度达到与结构对准器相似的灵敏度。

图2. 实验对比

图2(a)是在单域结构的SCOPe40数据库上进行同源检测的灵敏度累积分布,TP是同一个superfamily的匹配项,FP是指不同的折叠,灵敏度是指到第一个FP的ROC曲线下的面积。图2(b)是SCOPe40中superfamily的准确率和召回率曲线。图2(c)是在AMD EPYC 7702P 64核 CPU上对SCOPe40的11211个蛋白质结构进行all-versus-all搜索时, family, superfamily和fold的第一个FP的平均敏感度与总的用时的关系。以上对比实验发现,Foldseek对FP敏感度高,精确度高,同时速度还快。图2(d)是从AlphaFoldDB中随机选取100个查询结构在该数据库中进行搜索,每个氨基酸查询覆盖率与在第一个FP匹配之前TP匹配数量。图2(e)是比较对齐质量,在100个查询中每个查询的前5个匹配的平均值,Sensitivity = TP residues in alignment / query length; Precision = TP residues / alignment length。图2(f)是每个HOMSTRAD家族在 Foldseek 和 Dali 之间的比对质量的比较。F1分数是灵敏度和精度之间的调和平均值。Foldseek比MMseqs2、CLE-SW 和 TM-align 更准确、更灵敏,与 Dali 的准确度相似,比 CE 低 13%的准确率,但灵敏度高15%。从速度上,Foldseek与MMseqs2差距缩小到一个数量级以内,远优于其他结构对齐方法。

使用体验

Foldseek公开了网络服务器版本(https://search.foldseek.com/),用于多个数据库搜索。

1、搜索页面可以上传查询序列,同时选择搜索的数据库。

2、点击搜索,等待几秒即可返回搜索结果,通过右侧栏可以回溯之前的搜索历史。

力评

该项研究将蛋白质结构搜索的速率提高到了一个新的高度,并设置了一套新的蛋白质结构字母表,可以说是蛋白质结构描述的一种新型语言序列,有助于改进蛋白质同源性推断,在新型算法的加持下,挖掘PDB或AI生成蛋白数据的结构信息的方式已迎来变革。

CONTACT US

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Nat Methods|ColabFold:让所有人都能进行蛋白质折叠
序列的相似性
进展丨国家重点实验室取得最新研究成果: 蛋白质生物大数据分析平台研究中取得新进展
蛋白质数据库UniProt介绍
蛋白质预测分析 网址集锦
【一轮拓展】尖子生应该拓展的氨基酸与蛋白质
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服