2019年7月,来自华盛顿大学的David Baker教授组在Science上发表了题为 “Protein interaction networks revealed by proteome coevolution” 的文章,介绍了利用蛋白质组共进化来揭示蛋白质相互作用网络。
——背景——
目前已经有许多研究在蛋白-蛋白界面上观察到了残基-残基共进化,但尚未系统地研究蛋白质家族之间在整个蛋白组学规模上的氨基酸的共进化。这篇文章研究了大肠杆菌中 540万对蛋白质和结核分枝杆菌中390万对蛋白质之间的共进化。他们发现参与代谢的二元复合物中存在较强的共进化,而在遗传信息处理中起作用的较大复合物中存在较弱的共进化。他们利用这种共进化,结合结构建模,预测了蛋白-蛋白相互作用(protein-protein interactions,PPIs),并且这种方法的准确性远高于蛋白质组范围的双杂交和质谱筛选方法。他们在大肠杆菌和结核分枝杆菌中鉴定了数百种以前未表征的PPI,为已知的蛋白质复合物和网络增加了新元素。
——结果——
他们首先确定了4262个大肠杆菌蛋白质中的每个蛋白在40607个代表性的细菌蛋白质组中的直系同源物。然后对这些同源物进行序列比对并建立4262个蛋白两两之间的比对,共4262 × (4262 − 1) ÷ 2 = 9,080,191个蛋白对,其中共有5,433,039对蛋白含有足够的序列信息来评估共进化。共进化检测方法中的全局统计模型需要同时考虑所有残基对,对于这种大规模的数据集而言太慢了。因此,本文利用一个局部统计模型,残基-残基交互信息作为最初的筛选,其中每个残基对都是独立考虑的。他们使用所有残基对中交互信息最大的值作为蛋白-蛋白共进化的度量,以减少由于传递性导致的缺乏独立性的影响。通过average product correction(APC)降低看起来与许多其他蛋白共同作用的蛋白质,实现更好地区分阳性与阴性对照。选择前961,929对蛋白使用DCA(direct coupling analysis)和GREMLIN(generative regularized models of proteins)方法进行进一步的分析。根据阈值,选择了21,818对进行蛋白-蛋白对接。根据共进化残基对之间的距离约束,他们选择804个蛋白质对,其在对接界面上表现出最强的共进化(图1A-E)。将共进化的方法与其它方法在四个benchmark上进行了比较,绿色的表示最好的,红色的表示最差的,可以看到这篇文章的方法明显优于其他的方法(图1F)。
图1. 使用共进化识别PPI图2. 已知蛋白质复合物的共进化
图3. 结核分枝杆菌中预测的相互作用蛋白的功能相关性
——小结——
总的来说,这篇文章利用了大量的基因组序列数据,通过共进化的方法在不需要新的实验下揭示了蛋白-蛋白相互作用网络,并且发现了一些新的蛋白-蛋白相互作用,为之后的实验提供了一个较好的指导。
参考文献:
Cong, Q., et al. "Protein Interaction Networks Revealed by Proteome Coevolution." Science 365 6449 (2019): 185-89.
作者:谢 娟
联系客服