打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
力闻 | 连续序列空间中的蛋白质幻想

引言






蛋白幻想问题

在2021年间,trDesign的横空出世,蛋白幻想设计的范式被确定。目前将结构预测模型应用到序列设计任务上,基本方案是通过改变模型的输入序列,使得模型输出的结构满足设计要求。改变输入序列的方式可以采用蒙特卡洛或者梯度回传。但是这两者都存在一定问题:蒙特卡洛收敛速度慢;而梯度回传受制于序列one-hot的离散形式,在AF2复杂势能面上优化困难。除此之外,研究显示通过上述方法设计出来的序列,实验成功率低,难以得到可溶的蛋白质。

最近,trDesign的创始人--Sergey Ovchinnikov等与其合作方尝试了最新的蛋白幻想方法,此研究中,作者不再将输入序列局限于离散空间,而是拓展到连续空间中。实验结果表明大大加快了蛋白质幻想优化速度,基于这个方法,研究者设计了多个单体和多聚体蛋白质。一系列实验验证表明:设计蛋白的多种性质/结构都与预期一致!


方法论

在介绍文章方法之前,先简单回顾一下AF2模型的主体架构:AF2模型的输入包括三个部分:蛋白质原始序列,模板结构(template),以及同源序列(Multiple Sequence Alignment,MSA)。

AF2使用Evoformer模块抽取MSA中的进化信息以及同源模板中的结构信息,通过结构模块预测得到最终结构。除此之外,AF2还给出了表征氨基酸对之间距离的distogram矩阵,以及衡量预测结构质量的plddt、pTM等信息。

ColabDesign是哈佛大学Sergey Ovchinnikov等人基于AF2模型研发的一套蛋白质设计工具。ColabDesign的基本思想是,通过优化输入的蛋白质原始序列,让AF2的输出尽可能满足给定的要求。要求被满足时的输入序列就是最终设计出的序列。整个优化过程采用基于梯度的优化方法,并且一般不提供同源序列和同源模板,recycle设为0。举个例子,在固定主链结构的蛋白设计任务中,可以使用输出distogram和真实distogram的CCE作为损失函数,同时最大化plddt、pTM等指标。

在ColabDesign开发的前期,为了保证优化过程稳定并且最后能得到one-hot类型的蛋白质序列,Sergey设计了三种优化方式。分别是logits,softmax,以及hard。Logits指不加任何限制;softmax要求序列是softmax之后的结果;hard则要求序列是one-hot的形式。通过将这三个阶段串联在一起,可以得到one-hot形式的序列,完成蛋白设计任务。

但是这里存在两个问题:一是由于存在三个优化阶段,优化时间较长,特别是对于稍大的蛋白质;二是优化过程并不完全与设计目标一致。ColabDesign可以最大化p(structure|seq),但是蛋白设计任务要最大化p(seq|structure)或者p(seq)。

去年年中,Justas Dauparas等人提出了ProteinMPNN模型,对p(seq|structure)进行了建模,这使得以上两个问题都迎刃而解。对于问题一,由于不再要求ColabDesign得到的序列是one-hot形式的,优化过程可以完全在Logits阶段进行,也就是“relaxed sequence space”。一般在30步左右就可以达到收敛。对于问题二,使用ColabDesign得到较好的蛋白质结构之后,直接调用ProteinMPNN即可得到最终序列。最后,作者使用Alphafold2,OmegaFold,ESM-Fold,确保ProteinMPNN得到的序列符合p(structure|seq)。


结果验证

作者首先设计了14条长度从100到600不等的单链蛋白序列。其中,13条均能够表达出可溶的蛋白质。进一步,作者使用SDS-PAGE实验对蛋白质分子量做了验证,得到了与预期一致的实验结果。SEC实验中,在天然条件下得到的色谱与蛋白的预期尺寸一致,且以单一洗脱峰为主。所有SEC测试的蛋白质都产生了圆二色谱,表明蛋白质折叠良好,二级结构明确。在95°下,圆二色谱基本保持不变,表明所有的测试蛋白都具有较高的热稳定性。

作者还在多聚体上做了类似的蛋白设计、实验验证工作。所有的多体设计序列都能表达出可溶蛋白质,且SDS-PAGE、SEC等实验结果均表明,设计蛋白的多种性质均与预期一致。

最后,作者使用cryo-EM对设计的3个600长度单链蛋白质做了结构验证。实验得到的电子密度图精度在5.7 Å到5.9 Å之间。通过ChimeraX将AF2预测结构和density map对接起来,结果表现出很好的一致性。



力评 / View of Levinthal



时代变迁,从起初的30个氨基酸到现在的600个氨基酸的蛋白设计的成功案例,无疑证明了AI在蛋白质领域的重大突破。本次研究表明蛋白幻想的主要优势集中于“高可设计性”的蛋白主链生成任务,使用连续序列空间优化克服了之前的优化问题,蛋白质幻想的速度得到飞跃性的提升,全民de novo蛋白设计的时代已经来临。虽然目前还无法通过结构预测模型直接得到稳定可靠的序列,但无疑在未来,蛋白质设计任务的模块化将是重要的趋势。

参考链接:

  1. Frank C J, Khoshouei A, de Stigter Y, et al. Efficient and scalable de novo protein design using a relaxed sequence space[J]. bioRxiv, 2023: 2023.02. 24.529906.

  2. I Anishchenko, TM Chidyausiku, S Ovchinnikov, SJ Pellock, D Baker. De novo protein design by deep network hallucination. (2020) bioRxiv, doi:10.1101/2020.07.22.211482.

  3. C Norn, B Wicky, D Juergens, S Liu, D Kim, B Koepnick, I Anishchenko, Foldit Players, D Baker, S Ovchinnikov. Protein sequence design by explicit energy landscape optimization. (2020) bioRxiv, doi:10.1101/2020.07.23.218917.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
你都知道?非编码RNA研究技术大盘点
技术贴|ChIP-seq技术简介
带你读懂ChIP-seq的优点和局限
转录组测序问题集锦
综述 | 英国惠康-桑格研究所Lia Chappell & Andrew J.C. Russell等:单细胞(多)组学技术
分子的糖基化的制作方法
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服