打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
碾压AlphaFold?Meta预测蛋白质元宇宙的“暗物质”

Ewen Callaway

来自土壤、海水和人体的微生物分子是这个地球上非常神秘的蛋白质。

当伦敦的DeepMind公司在今年公布约2.2亿个蛋白质预测结构时,几乎覆盖了DNA数据库中已知生物的全部蛋白质。现在,另一个科技巨头揭示了这个蛋白质宇宙的“暗物质”。

Meta(前身为Facebook,总部位于美国加州的门洛帕克)的研究团队利用人工智能(AI)预测了约6亿个蛋白质的结构,这些蛋白质来自此前从未被表征过的细菌、病毒和其他微生物。

Meta AI蛋白质团队负责人Alexander Rives说:“这些结构是我们最不了解的结构。它们是非常神秘的蛋白质。我相信它们有潜力为生物学研究带来巨大启示。”

ESM宏基因组图(ESM Metagenomic Atlas)数据库包含对6.17亿个蛋白质的结构预测。来源:ESM Metagenomic Atlas (CC BY 4.0)

研究结果于11月1日以预印本[1]的形式发布。该团队利用一个“大型语言模型”进行预测,这类AI是那些只需几个字母或单词就能预测文本的工具的技术基础。

通常来说,语言模型需要使用大量文本进行训练。为了把它们应用到蛋白质上,Rives和同事给它们输入已知蛋白质的序列,这些序列可以用一条由20种不同氨基酸组成的链表示,每个氨基酸都用一个字母表示。随后,这个网络会学习如何在部分氨基酸不可知的情况下“自动补全”蛋白质。

蛋白质“自动补全”

Rives说,这种训练能让该网络获得对蛋白质序列的直觉理解,而蛋白质序列能透露蛋白质结构的信息。第二步——受到DeepMind开创性蛋白质结构预测AI“AlphaFold”的启发——是将这类理解与已知蛋白质结构和序列之间的关系相结合,根据蛋白质序列生成结构预测。

Meta的这个网络名为ESMFold。Rives的团队在今年夏天早些时候表示[2]该网络的准确度不如AlphaFold,但预测速度快了60倍。“这意味着我们可以把结构预测拓展到更大的数据库。”

作为测试,他们决定将模型用在一个批量测序的“宏基因组”DNA数据库上,这些DNA来自环境中的土壤、海水、人体肠道、皮肤和其他微生物生境。这些DNA信息——可编码潜在蛋白质——的绝大多数都来自从来没有培养过、科学界未知的生物体。

Meta团队总共预测了超过6.17亿个蛋白质的结构,而且只用了2周时间(AlphaFold生成单个预测一般需要几分钟)。这些预测结构和模型的底层代码都可免费获取。

在这6.17亿个预测结构中,模型认为有1/3以上的结构属于高质量结构,让研究人员可以信任整个蛋白质结构的准确性,而且在某些情况下还能分辨原子水平的细节。在这些预测中,有几百万个结构是全新的,与针对已知生物的实验解析蛋白质结构数据库和AlphaFold数据库中的结构都不一样。

AlphaFold数据库中的一大部分结构几乎是完全相同的,而“宏基因组”数据库“应能覆盖一大片之前未曾见过的蛋白质宇宙”,首尔大学计算生物学家Martin Steinegger说,“这是揭开这些暗物质面纱的大好机会。”

哈佛大学演化生物学家Sergey Ovchinnikov对于ESMFold预测的数亿个置信度较低的结构感到好奇。有些预测可能缺少清晰的结构,至少单独看起来如此,其他预测可能是将非编码DNA错误当成了某种编码蛋白质的物质。他说:“蛋白质宇宙好像还有一大半是我们完全未知的。

更清晰、更简单、更便宜

慕尼黑工业大学的计算生物学家Burkhard Rost对于Meta模型在速度和准确度上的综合表现非常赞赏。但他怀疑这个模型在预测宏基因组数据库中的蛋白质时,是否具有超越AlphaFold精确度的优势。基于语言模型的预测方法——包括他的团队开发的一种方法[3]——更适合用来快速确定突变如何改变了蛋白质结构,而AlphaFold做不到这点。他说:“今后的结构预测会更清晰、更简单、更便宜,为新发现敞开了大门。”

DeepMind公司的一名代表表示,公司目前没有在数据库中加入宏基因组结构预测的计划,但不排除未来会公布这类信息。不过,Steinegger与合作者已经利用AlphaFold的一个版本预测了约3000万个宏基因组蛋白的结构。他们希望通过寻找新形式的基因组复制酶,发现新型RNA病毒。

Steinegger认为这类工具的下一个使命是网罗生物学的暗物质。“我相信对这些宏基因组结构的分析很快将迎来一次井喷。”

参考文献:

1. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2 (2022).

2. Lin, Z. et al. Preprint at BioRxiv https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1 (2022).

3. Weissenow, K., Heinzinger, M. & Rost, B. Structure 30, 1169–1137 (2022).

原文以AlphaFold’s new rival? Meta AI predicts shape of 600 million proteins为标题发表在2022年11月1日《自然》的新闻版块上

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
AlphaFold之外,又一里程碑!两周预测6亿蛋白质结构,首次通往蛋白质“暗世界”
AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
AlphaFold迎来对手?Meta AI 预测超6亿个蛋白结构,仅用2周时间
Science前沿:大语言模型涌现演化信息,加速蛋白质结构预测
研究表明:人工智能能识别到未知的人类祖先
Meta AI团队新成果!150亿参数Transformer模型对原子级蛋白质结构进行进化尺度预测
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服