——背景——
几乎所有的生物过程都离不开蛋白质的参与。作为一种由氨基酸组成的线性多聚体,蛋白质通过将自身折叠为特定形式的三维结构来完成生命过程面临的种种任务。因此,蛋白质结构与生物功能和疾病息息相关。理解蛋白质的折叠过程以及结构与功能的关系是蛋白质研究中基本而重要的问题。近年来,使用计算方法预测蛋白质三维结构取得了一系列进展,并为我们理解蛋白质折叠过程提供了潜在的途径,但这些方法在可预测蛋白的大小和范围上均存在着局限性。
已知的计算预测方法包含了两种策略。一种策略是通过计算程序构建明确的从序列到结构的映射关系,来实现从序列到结构的预测;另一种策略是通过识别蛋白家族中的共进化残基,用共进化信息描述残基在物理空间中的连接性,得到残基间的contact maps,进一步得到蛋白质的三维结构。这些方法或受限于巨大的计算量,或者受限于对结构模板或共进化信息的依赖,因此,发展新的更好的方法仍然是蛋白质结构预测领域的迫切需求。去年末,来自DeepMind的AlphaFold方法因其在CASP13比赛中的优异表现引发了极大关注(详情可参考:AlphaFold开启了新方向吗?),今天,我们将介绍哈佛大学医学院Mohammed
AlQuraishi教授提出的最新蛋白结构预测方法,该方法在保证准确率的基础上,能够实现毫秒级的预测,将预测速度提高了6-7个数量级。文章于2019年4月24日发表在Cell Systems。
——模型介绍——
在文章中,作者提出了一种端对端的可微分学习模型,该模型仅使用氨基酸序列和PSSMs信息作为模型的输入,直接输出蛋白的三维结构。模型包含三个阶段:计算部分,几何构建,评估。作者将该模型命名为循环几何网络(Recurrent geometric network, RGN)(图1)。图1 左下角蓝色部分为计算部分,包含了两套方向相反的LSTM,每个单元的输入包含了残基和PSSM的信息,以及邻近单元的信息。这种双向循环拓扑结构使得每个残基的计算单元整合了残基上游和下游乃至整个蛋白序列的信息。每个计算单元最终输出了三个值,分别对应了残基的扭转角φ,ψ,ω。左上部分为集合构建单元,根据计算部分输出的角度信息依次将每个残基与其上游的骨架相连,最终输出完整的蛋白质结构(图2)。最后的评估部分使用dRMSD来计算蛋白质的预测结构和实验结构之间的偏差。模型的最终目标是通过最小化dRMSD来实现对蛋白结构的预测。
为了训练RGN模型,作者利用CASP7-12的比赛数据,分别构建了ProteinNet7-12数据集。每个ProteinNet测试集包含了对应的CASP中的结构,ProteinNet训练集则包含了CASP之前的所有公开的序列和结构信息。作者分别利用ProteinNet7-12训练了不同的RGN模型,用来评估RGN模型在历届CASP中的表现。
图1: 循环几何网络模型。
图2: 可视化模拟RGN模型如何通过计算残基间的键角以及键之间的旋转角实现蛋白结构的组装。
图3: 模型训练过程的可视化模拟。
——结果分析——
为了评估模型,作者首先将模型用于预测没有共进化信息的Novel fold类。结果发现RGN模型在所有CASPs中均超过了其他预测模型,包括那些使用了共进化数据的模型。当模型用于预测Known Folds类的结构时,RGN通常不如其他排名靠前的CASP预测模型,这些模型均使用了模板信息。使用模板信息的模型在TBM区域有更高的采样精度,从而提高了模型预测的结果。进一步分析发现,RGN模型对于那些与训练集有90%序列相似性的样本,预测结果与50%序列相似性的样本相近,说明模型存在欠拟合问题。
图4:RGN模型预测结果。感知领域的深度学习模型可能存在内部数据表征的可解释性,例如自然语言处理中语义相近的词其内部表征也相近。为了确定RGN模型是否具有类似的可解释性,作者将模型中的高维向量通过降维方法进行可视化表示。CATH数据库包含了“Mainly Alpha,’’ ''Mainly Beta,’’ ''Alpha Beta,’’ 和 ''Few Secondary Structures’’四类,对于CATH数据库的降维表示如图5所示,四个主要类各自有清晰的区域,并且Alpha Beta类连接了Alpha类和Beta类。
图5:RGN的隐空间示意图。
——小结——
RGN模型作为端对端学习模型,使用一个数学函数同时实现了区域分割,性质发现,能量最小化和构象采样。模型的预测速度比以往提升了6-7个数量级(尽管训练速度很慢)。在预测准确性上相较于其他模型也比较相当,尤其对于FM结构的预测优于其他模型。
图6:模型的训练和预测速度。
当然,模型仍然无法被立即用于药物发现过程。因为模型的准确度目前大约在6 Å左右,尚未达到解析全原子结构所需的1-2Å。但该方法仍然有许多优化空间,包括整合已有的蛋白预测模型,整合更多的化学物理规则和信息等,而RGN模型对于蛋白折叠的隐空间表示能力也可能有助于我们进一步的认识蛋白折叠过程。
参考文献:
1. 1. AlQuraishi, Mohammed. "End-to-end differentiable learning of protein structure." Cell Systems (2019). 8, 1-10.
DOI:
10.1016/j.cels.2019.03.006
2. 2. https://hms.harvard.edu/news/folding-revolution(封面与图2、图3摘自该网站)
联系客服